DESS IAO

année 1999-2000

Proposition de sujets en option TAL (Traitement Automatique des Langages)

Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

Jacques CHAUCHE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 11 - Fax : 33 (0)4 67 41 85 00 - courriel : chauche@lirmm.fr

Résumé des propositions de sujets

SUJET 1 SUJET 2 SUJET 3

Prototype de système de traduction automatique Français-Anglais Traduction Automatique de requêtes en Langue Naturelle vers des requêtes en SQL Dictionnaire vocable sur la Toile

A partir d'une analyse du Français générer la traduction en anglais. Le coprpus est fournis. La stratéguie retenue sera celle du transfert. L'une des difficulités est l'intégration d'un modèle (ou sa découverte) dans la phase d'analyse/transfert de LN vers SQL A partir d'un texte et de dictionnaires générer une page contenant le lexique relatif au texte. La détection de locutions, des contextes dans le cas des polysémies lexicale sont des élements déterminants.

SUJET 1 - Prototype de système de traduction automatique Français-Anglais

La traduction d'un texte d'une langue à une autre suppose une analyse correcte de ce texte : chaque mot du texte est identifié dans sa fonction et dans son acception. Un analyse est incomplète ou erronée quand l'une ou l'autre ce ces caractéritique, n'a pas pu ou a été mal déterminée. Il n'est pas certain alors que la traduction puisse avoir lieu dans de bonnes conditions (le contraire n'est pas certain non plus).

Lorsque la traduction est possible, il faut réaliserr la transformation des structures syntaxdiques de la langue de départ (dite langue source)vers celles de langue visée (dite lange cible). Cette transformation est appélée le transfert structurel. Le même type de transfert doit être effectué au niveau lexical.

Travail demandé : à partir d'un petit corpus d'arbre d'analyse correcte du français il s'agit de construire un mini système de TA Français->Anglais :

augmenter l'analyse du français en vue du transfert vers l'anglais. certaines informations non pertinentes en français le sont peut-être en anglais ;

construite un module de transfert vers une structure syntaxiuque correcte pour l'anglais ;

construite un module de génération de l'anglais (passage de la structure syntaxique vers le texte).

Pour l'ensemble de ces tâches, l'analyse et l'implémentation (en SYGMART et en C ou Java sous Système UNIX) seront menées à bien.

SUJET 2 - Traduction Automatique de requêtes en Langue Naturelle vers des requêtes en SQL

Lorsqu'une phrase est correctement analysée, nous pourrons déterminer la fonction et le sens des mots. Si cette phrase est interrogative, elle peut correspondre à une requête SQL. Par exemple :

Quel est l'âge du capitaine ? --> Select Person.age from personne where Personne.grade = Capitaine

Cette traduction utilise un transducteur de structure syntaxique :

==>

Cette traduction ne présuppose rien sur l'organisation de la base. Elle ne peut être utilisable que si elle correspond à une requette possible sur cette base.

Il s'agit de construire un transducteur qui tienne compte d'un schéma d'une base de données. Il faut donc déterminer comment définir ce schéma dans un dictionnaire de termes et écrire un transducteur qui tienne compte de ces informations. En d'autres termes, le schéma de la base consitute l'ontologie du domaine sur lequel on travaille.

Travail demandé : construire un système de traduction LN -> SQL qui utilise le schéma d'une base de donnée comme ontologie. Seuls des énnoncés interrogatifs sont considérés. L'analyse du problème doit être menée à bien. L'inplémentation ce fera en SYGMART et en C ou Java sous Système UNIX.

SUJET 3 - Dictionnaire vocable sur la Toile

A partir d'un texte en Français et de dictionnaires, on souhaite générer une page contenant le lexique relatif au texte.

Le scénario utilisateur se déroule exclusivement à travers Internet via un navigateur. L'utilisateur indique un texte au serveur (soit via l'entrée d'une url, soit directement en copiant-collant le texte dans une zone textuelle). Le serveur retourne un page contenant des informations lexicales pertinentes par rapport au texte. Le type d'information dépendra des dictionnaires disponibles et des préférences de l'utilisateur. La détection des locutions et des contextes dans le cas des polysémies lexicales sont des élements déterminants.

Pa r exemple, pour la phrase "Nous avions beaucoup d'argent", on doit retrouver les informations issues des dictionnaires pour les éléments "avoir" (et non pas "avion"), "beaucoup" et "argent". Les articles, les prépositions, etc. ne seront a priori pas l'objet de recherche.

Pour élaborer sa réponse, le serveur doit effectuer les tâches suivantes :

Analyser le texte (on ne travaillera que sur le Français) en repérant les locutions (nominale par ex "moulin à café" ou verbale "tirer le diable par la queue") qui sont potentiellement sous une forme "déclinée" ("j'ai acheté trois moulins à café" ou "Quand nous étions jeune, nous tirions souvent le diable par la queue", etc.) ;

==>

Parcourir l'arbre d'analyse résultat afin d'extraite les élements lexicaux identifiés lors de l'analyse ;

Rechercher dans les dictionnaires les informations lexicales asscoiés aux éléments lexicaux ;

Fusionner et formater à l'attention de l'utilisateur les informations lexicales (produire un résultat sous forme HTML).

Travail demandé : il s'agit d'augmenter une analyse du Français existante afin d'autoriser la reconnaissance de locutions. A partir de l'arbre d'analyse du texte (ou de segments de textes), une recherche d'information doit être effectuée dans un ou plusieurs dictonnaires (selon les préférences de l'utilisateur). Les infortmations trouvées doivent être affichées sous forme lisibles à l'utilisateur.

L'analyse du problème doit être menée à bien. L'inplémentation se fera en SYGMART et en C ou Java sous Système UNIX. On ne s'autorisera, a priori, que le developpement de modules CGI limités pour la partie serveur (pas de page HTML avec du Java).

Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr