** Recup url : http://www.lirmm.fr/~lafourca/ML-enseign/DESS%20IAO/IAO00-01Sujet.html DESS IAO 00/01 Sujets de TALN
 

DESS IAO

année 2000-2001

Proposition de sujets en option TAL (Traitement Automatique des Langages)

Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

Jacques CHAUCHE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 11 - Fax : 33 (0)4 67 41 85 00 - courriel : chauche@lirmm.fr

 

Dictionnaire vocable sur la Toile

A partir d'un texte en Français et de dictionnaires, on souhaite générer une page contenant le lexique relatif au texte.

Le scénario utilisateur se déroule exclusivement à travers Internet via un navigateur. L'utilisateur indique un texte au serveur (soit via l'entrée d'une url, soit directement en copiant-collant le texte dans une zone textuelle). Le serveur retourne un page contenant des informations lexicales pertinentes avec des liens hypertextes entre le texte d'origine et les défintions des termes. Le type d'information dépendra des dictionnaires disponibles et des préférences de l'utilisateur.

Pa r exemple, pour la phrase "Nous avions beaucoup d'argent", on doit retrouver les informations issues des dictionnaires pour les éléments "avoir" (et non pas "avion"), "beaucoup" et "argent". Les articles, les prépositions, etc. ne seront a priori pas l'objet de recherche.

Pour élaborer sa réponse, le serveur doit effectuer les tâches suivantes :

Analyser le texte (on ne travaillera que sur le Français) en repérant les locutions (nominale par ex "moulin à café" ou verbale "tirer le diable par la queue") qui sont potentiellement sous une forme "déclinée" ("j'ai acheté trois moulins à café" ou "Quand nous étions jeune, nous tirions souvent le diable par la queue", etc.) ;

==>

      Parcourir l'arbre d'analyse résultat afin d'extraite les élements lexicaux identifiés lors de l'analyse ;

      Rechercher dans les dictionnaires les informations lexicales asscoiés aux éléments lexicaux ;

      Fusionner et formater à l'attention de l'utilisateur les informations lexicales (produire un résultat sous forme HTML).

Travail demandé : A partir de l'arbre d'analyse du texte (ou de segments de textes) résultant d'une application SYGMART déjà réalisée, une recherche d'information doit être effectuée dans un ou plusieurs dictonnaires (selon les préférences de l'utilisateur). Les informations trouvées doivent être affichées sous forme lisibles à l'utilisateur.

L'analyse du problème doit être menée à bien. L'implémentation se fera en C ou Java ou Perl (ou autres) sous Système UNIX. On ne s'autorisera, a priori, que le developpement de modules CGI limités pour la partie serveur (pas de page HTML avec du Java).

 
Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr