DEA INFORMATIQUE
ANNEE 2003-2004

PROPOSITION DE PROJET
 

Responsables : M. LAFOURCADE, D. SCHWAB

Téléphone : 

04 67 41 85 71, - 86 85

Adresses électroniques : 

lafourca@lirmm.fr, schwab@lirmm.fr

Laboratoire et équipe : LIRMM - Dept Informatique - Equipe TAL

TITRE :

Construction d'une base de vecteurs conceptuels à partir de dictionnaires bilingues
(application à l'anglais)

Résumé :

Dans le cadre de l'équipe TAL du LIRMM, nous étudions des approches par vecteurs conceptuels. Ces derniers permettent de capturer les sèmes associé à un terme. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permttent d'affiner la pertinence de l'analyse. Il est ainsi possible d'effectuer avec de meilleurs résultat une sélection lexicale ou un transfert (dans le cadre de la traduction). Ainsi, une base lexicales importante (plus de 150000 termes pour 510000 vecteurs) a été construite semi-automatiquement pour le Français.

Nous souhaitons évaluer dans quelle mesure il est possible de construire une base similaire pour une autre langue (en l'occurrence l'Anglais) à partir des vecteurs du Français comme noyau d'amorçage. Pour cela, l'utilisation de dictionnaires bilingue Anglais-Français (accessibles sur le Web) est nécessaire. Cette première approche doit être poursuivie par l'utilisation de ressources lexicales anglaises monolingues (par exemple Wordnet) lors de l'affinage des vecteurs. Les difficultés principales proviennent au moins des deux facteurs :

1) la polysémie croisée qui existe entre les deux langues

2) le peu de confiance que l'on peut avoir dans certains vecteurs du Français.

La création de la bses vectorielle anglaise doit pouvoir aussi améliorer la pertinence de la base française, par croisement d'informations mutuelles.

Le but de ce DEA est donc d'étudier et maquetter un environnement permettant l'amorçage et l'affinage de vecteurs de l'Anglais à partir de ceux du Français. Il s'agit de dégager une certains nombre de stratégies pertinentes et extensibles à n'importe quelle autres couples de langues.

Résultats attendus

Pratiques (réalisations) :

Spécification et implémentation (en Java) d'un module de combinaison de vecteurs conceptuels à partir de dictionnaires bilingue. Evaluation concrête des résultats. Les travaux de J.M. Delorme (www.lirmm.fr/~delorme) et de D. Schwab (www.lirmm.fr/~schwab) doivent servir de points de départ.

Théoriques :

Étude bibliographique et analyse des approches vectoriel en indexation lexicologique. Analyse des problèmes théoriques liée au croisement multilingue, de l'appariment de sémantique et du rafinement de sens. Esquisse de solutions afin de résoudre ces difficultés.

Remarques :

Ce DEA doit être envisagé comme une première étude en vue d'une thèse dans un cadre plus général de la gestion de dictionnaires sémantiques (et vectoriels) multilingues.

Mots-clés :

Analyse linguistique, lexiques multilingues, représentation du sens, phénomènes contrastifs, appariment de sens.  


Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourcade@lirmm.fr