04 67 41 85 71 85 74
lafourca@lirmm.fr, prince@lirmm.fr
Actuellement, de nombreux outils sont proposés pour le traitement des langues naturelles. Ces outils sont basés sur différents paradigmes qui ont chacuns leurs points forts et points faibles. Par exemple, les approches tranformationnelles permettent la manipulation de structures (des arborscences dans le cas de l'outil SYMART) mais ne sont pas adaptés à des traitements de type logique qui seraient pourtant nécessaires pour la désambiguïsation de certains phénomènes linguistiques. Un certain nombre de phénomènes linguistiques sont liés à l'usage et ne peuvent pas être logiquement déduits. Par exemple, le contraire de "sec" pourra être "vert" dans le cas du bois ; mais sera "humide" dans le cas du "temps". L'adjectif d'intensification est largement arbitraire selon les termes, par exemple "une grande peur" ou "une longue attente" (surement pas "longue peur"). Les fonctions lexicales de Meltchuk offre un cadre de définition pour de tels phénomènes.
Par ailleurs, dans le cadre de l'équipe TAL du LIRMM, nous étudions des approches par vecteurs conceptuels. Ces derniers permettent de capturer les sèmes associé à un terme. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permttent d'affiner la pertinence de l'analyse. Il est ainsi possible d'effectuer avec de meilleurs résultat une sélection lexicale ou un transfert (dans le cadre de la traduction).
Le but de cette thèse est donc d'étudier et maquetter un environnement hybride combinant approches transformationelles, approches vectorielles et approches fonctionnelles. L'étudiant devra s'intéresser au modèle transformationel mis en uvre dans l'outil SYGMART et à la théorie sens-texte de Meltcuk. afin de proposer un modèle unificateur. On mettra également l'accent sur la définition d'un modèle d'apprentissage automatique de fonctions lexicales dans la perspective de production révisables d'analyses de textes.
Théoriques :
Étude bibliographique et analyse des approches vectoriel et sur la théorie sens-texte (fonctions lexicales) et outils existants pour le TALN. Étude et formalisation des passages <symboles-vecteurs-fonctions> ainsi que celles d'auto-évaluation des analyses à des fins de révisions.
Pratiques (réalisations) :
Spécification et implémentation (en Java, C++ ou Lisp) d'une maquette d'architecture combinant vecteurs conceptuels et fonctions lexicales (déterminées à partir d'arborescences).
Analyse linguistique et arborescence, systèmes transformationels, fonctions lexicales, apprentissage, auto-évaluation.
Lafourcade M . et E. Sandford. Analyse et désambiguïsation par vecteurs sémantiques. Proc. TALN 99 (Cargèse, Juillet 1999), pp. 351-356.
Lafourcade M. Lexical sorting and lexical transfer by conceptual vectors. Proc. MMA'2001 (Tokyo, Janvier 2001), 6 p.
Meltchuk I. Dictionnaire explicatif et combinatoire du français contemporain - Recherches lexico-sémanriques. Vol I, II et III. Les presses de l'Université de Montréal.
Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr