Analyse Syntaxique

 


Responsable : Jacques Chauché

 

ce thème a pour objectif d'étudier des modèles d'analyse syntaxique du français en particulier (avec quelques incursions pour d'autres langues). Deux modèles sont privilégiés : les transducteurs d'arbres utilisant les algorithmes de réécriture de Markov, et les prégroupes de Lambek.

Un outil important est issu de ce thème: l'analyseur du français SYGFRAN, fondé sur l'environnement SYGMART. En tant que telle, l'analyse syntaxique n'est pas une fin en soi: ses apports sont appréciés grâce à des applications en fouille de textes (voir le thème fouille de textes).

SYGFRAN a participé avec succès aux campagnes d'évaluation EVALDA/EASY I et II et PASSAGE.

Participants au thème : Jacques Chauché, Anne Preller, Violaine Prince, Richard Terrat.

 


 

Sémantique Lexicale

 


 

Responsable : Mathieu Lafourcade

Un des apports majeurs du traitement automatique des langues en tant que domaine, est l'accroissement des ressources dictionnairiques en ligne. Ces ressources, très faibles il y a seulement quinze ans, s'enrichissent de plus en plus grâce à des bases de connaissances lexicales telles que WordNet, EuroWordnet, des bases de domaines spécialisés, des dictionnaires bilingues entre des langues préalablement peu liées entre elles (par exemple, français-malais, japonais-arabe, etc...).

L'équipe TEXTE du LIRMM, avec le GETALP de Grenoble, participe fortement à ces ressources de plusieurs manières. L'une d'entre elles est la mise en place d'un réseau lexical enrichi par des contributeurs anonymes sous forme d'un jeu sérieux, le système JEUX DE MOTS

L'équipe a par ailleurs fortement contribué à des représentations du sens des mots par le biais de vecteurs. Contrairement aux vecteurs traditionnellement utilisés, issus de corpus, tels que les vecteurs de Salton, les vecteurs LSA, ou SVM, l'équipe a choisi de développer une approche fondée sur les principes mêmes de la langue.

- Vecteurs sémantiques ou représentations vectorielles des indexations à la façon du Roget. Ces vecteurs ont pour qualité de transporter la polysémie sans la désambiguiser. Ils sont de dimension fixe (la base ne varie jamais). Article expliquant les fondements des vecteurs sémantiques.

- Vecteurs conceptuels : prenant pour base les vecteurs sémantiques, ces vecteurs s'enrichissent des sens des dictionnaires (par traitement automatique des définitions), des usages en corpus. Ils sont beaucoup plus nombreux, et plus discriminants : ils ne véhiculent pas la polysémie. Article sur les vecteurs conceptuels.

 

Fouille de Textes

...