04 67 41 85 71, - 86 74
lafourca@lirmm.fr, prince@lirmm.fr
Dans la perspective de l'analyse sémantique de textes, nous souhaitons disposer de grands réseaux lexicaux mettant en relation des termes et des acceptions (sens de mots). Les relations visées sont aussi bien ontologiques (est-un, partie-de, membre-de, instance-de, ...) qu'argumentaires pour les verbes (agent-de, patient-de, instrument-de, ...). Un tel réseau constitue une source d'informations importante pour la désambiguïsation lexicale. Par exemple, lors d'une l'analyse sémantique d'une phrase comme "l'avocat mange une pomme", les relations "personne agent-de manger" et "avocat/justice est-un personne" peuvent permettre de sélectionner la bonne acception pour le terme polysémique "avocat".
Les noeuds du réseau sont des termes et des acceptions. Les relations comportent une étiquette pour indentifier le type de relation et un scalaire correspondant à un niveau de confiance.
L'approche envisagée est celle d'un système multi-agents où chaque agent se focalise sur une heuristique donnée afin d'extraire un certain type de relations à partir de textes. D'autres agents scrutent le réseau lexical en construction afin d'augmenter sa cohérence. L'approche doit être suffisement souple pour permettre 1) l'intervention d'un expert humain dans l'établissement de certaines relations difficiles à extraire automatiquement et 2) la prise en compte de domaines d'application (les métiers) où les termes ont des sens particuliers et entretiennent des relations spécifiques avec d'autres termes. Le réseau est en construction permanente.
Enfin, une mise en application de l'approche pour des bases de données lexicales multilingues (à la PAPILLON) doit être envisagée. En particulier d'identifier quels sont les apports mutuels possibles entre la construction du réseau lexical et l'établissement des bases de données interlingues par acceptions.
Pratiques (réalisations) :
Spécifications et implémentation (en Java ou C++) d'un module de construction de réseau lexical selon une approche multi-agents. Evaluation concrête des résultats.
Théoriques :
Étude bibliographique et analyse des approches à multi-agents (réactif) pour les bases de données lexicales. Analyse des problèmes théoriques. Modélisation formelle du modèle et de ses variantes.
Ce DEA doit être envisagé comme une première étude en vue d'une thèse dans un cadre plus général de l'automatisation de l'acqusition de ressources lexicales à l'aide de système multi-agents. Ce stage se fera éventuellement avec la société Nout Software, qui souhaiterai exploiter un tel réseau lexical dans ces outils.
Analyse sémantique, identification du sens, réseau lexical, relations termes-acceptions.
Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourcade@lirmm.fr