MASTER 2 RECHERCHE
ANNEE 2005-2006

PROPOSITION DE PROJET
 

Responsables : M. LAFOURCADE, J. QUINQUETON

Téléphone : 

04 67 41 85 71, - 86 85

Adresses électroniques : 

lafourca@lirmm.fr, jq@lirmm.fr

Laboratoire et équipe : LIRMM - Dept Informatique - Equipe TAL

TITRE :

Analyse sémantique de textes par algorithmes à fourmis et combinaison de vecteurs conceptuels et de réseaux lexicaux.

Résumé :

Dans le cadre de l'équipe TAL du LIRMM, nous étudions des approches d'analyse sémantique de textes (par vecteurs conceptuels et relations symboliques entre termes). Les vecteurs permettent de capturer les sèmes associé à un terme. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permttent d'affiner la pertinence de l'analyse en exploitant des informations thématiques. Il est ainsi possible d'effectuer avec de meilleurs résultat une sélection lexicale ou un transfert (dans le cadre de la traduction). Ainsi, une base lexicales importante (plus de 150000 termes pour 510000 vecteurs) a été construite semi-automatiquement pour le Français.

L'analyse sémantique se fait à partir de l'arbre d'analyse morpho-syntaxique produit par l'outil SYGMART de J. Chauche (www.lirmm.fr/~chauche). La propagation des vecteurs et des autres informations pertinentes peut se faire à l'aide de "fourmis". Les sens des termes consituent des fourmillères et produisent régulièremement des fourmis. Pour plus de détail voir la page suivante. Un réseau lexical est couplé afin d'obtenir entre termes du lexique des relations ayant une forte précision et sortant su cadre strictement thématique.

Nous souhaitons évaluer dans quelle mesure plusieurs critères (les "castes"), implémenté sous forme d'heuristique simples peuvent efficacement exploiter conjointement erveurs conceptuels et reseau rexical. On pensera en particulier aux contraintes sémantiques liées aux agents et patients typiques de verbes, mais également aux relations ontologiques classiques (is-a, partie-de, etc), et d'une façon générale aux fonctions lexicales de Mel'chuk. Par exemple, pour le sens propre de "manger" on souhaite que l'agent appartienne à la classe des êtres vivant.

Le but de ce DEA est donc d'étudier et maquetter un environnement permettant l'analyse sémantique de textes à l'aide d'algorithmes à fourmis. Il s'agit de dégager une certains nombre de stratégies et d'heuristique pertinentes. On se focalisera en particulier sur l'analyse des interactions indirectes entre fourmis de castes differentes, et d'analyser comment de bons chemins d'interprétation peuvent en émerger.

Résultats attendus

Pratiques (réalisations) :

Spécification et implémentation (en Java) d'un module d'analyse sémantique de textes à l'aide d'algorithmes à fourmis. Evaluation concrête des résultats.

Théoriques :

Étude bibliographique et analyse des approches à fourmis et à multi-agant réactif pour le TALN. Analyse des problèmes théoriques. Modélisation formelle du modèle et de ses variantes.

Remarques :

Ce DEA doit être envisagé comme une première étude en vue d'une thèse dans un cadre plus général de l'analyse sémantique.

Mots-clés :

Analyse sémantique, identification du sens, algorithmes à fourmis, vecteurs conceptuels, réseau lexical.


Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourcade@lirmm.fr