DEA INFORMATIQUE
ANNEE 2002-2003

PROPOSITION DE PROJET
 

Responsables : M. LAFOURCADE

Téléphone : 

04 67 41 85 11, - 85 71

Adresses électroniques : 

lafourca@lirmm.fr, schwab@lirmm.fr

Laboratoire et équipe : LIRMM - Dept ARC - Equipes TAL

TITRE :

Annotations et nommages de sens lexicaux.

Résumé :

Dans le cadre de la recherche en désambiguïsation de sens (Word Sense Disambiguation) et de l'apprentissage lexical automatique, l'équipe TAL du LIRMM a développé un formalisme (dit de vecteurs conceptuels) et plusieurs prototypes (dont une est accessible sur www.lirmm.fr/~lafourca ). Les vecteurs conceptuels permettent de capturer les sèmes associés à un terme. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permettent d'affiner la pertinence de l'analyse. Il est ainsi possible d'effectuer avec de meilleurs résultats une sélection lexicale ou un transfert (dans le cadre de la traduction).

Nous souhaitons formaliser et developper un agent qui à partir d'une classification des sens d'un terme serait capable de les nommer. Le nommage étant une annotation, qui dans sa forme la plus simple se réduit à un autre terme (annotateur). Par exemple, les trois sens à identifier pour le terme botte, sont botte/chaussure, botte/escrime, botte/foin. Une difficulté provient du fait qu'un terme est associé à plusieurs définitions (lexies) venant de plusieurs dictionnaires. Plusieurs définitions différentes peuvent correspondre au même sens (acception), mais les dictionnaires peuvent aussi segmenter les sens différemment. Il conviendra donc de formaliser les tâches suivantes

Formellement, il faudra donc définir une fonction f(terme,annotateur) --> acception . Une fonction (pseudo)-inverse étant f-1(terme, acception) --> {annotateur}*

Par ailleurs, nous souhaitons effetcuer, pour un texte, une désambiguïsation lexicale qui prendra la forme d'une annotation pour chacun des termes polysémiques. Une fois la bonne acception identifiée en contexte, l'annotation la plus simple étant le remplacement des terms par leur nom. Par exemple :

ma paire de botte me fait mal aux pieds
--> ma paire de botte/chaussure me fait mal aux pieds.

Cependant, il n'est pas toujours possible de sélectionner une acception unique. Dans ce cas, il faudra choisir un terme annotateur plus approprié le nom (plus général). L'annotation sera (entre autre) utilisée sur les définitions des termes qui sont à la base de l'apprentissage.

Résultats attendus

Pratiques (réalisations) :

Spécification et implémentation (en Java) d'un module de nommage de sens et d'annotation de texte. On se basera sur les spécifications et l'architecture définie par Didier Schwab (www.lirmm.fr/~schwab).

Théoriques :

Étude bibliographique et analyse des approches de classification de sens. Etude formelle de la selection et de l'évaluation des candidats annotateurs. Evaluation de l'effet sur l'apprentissage.

Remarques :

Ce DEA doit être envisagé comme une première étude en vue d'une thèse dans un cadre plus général de l'intégration d'approches statistiques (vecteurs), symboliques et lexicales pour l'apprentissage et la découverte lexicale par des agents automomes.

Mots-clés :

Analyse linguistique et arborescence, ressources lexicales, vecteurs conceptuels, nommage de sens, classification de sens; annotation.  


Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr