- DICTIONNAIRES FE*
Travaux de Mathieu LAFOURCADE
Les projets de dictionnaires dans lesquels le groupe TAL sinvestit visent à construire des dictionnaires des dictionnaires bilingues français-langue cible via langlais. Ces projets sont loccasion daborder un certain nombre de problème liés à la création, la gestion de ressources lexicales multilingues.
Les dictionnaires visés, sont les dictionnaires structurés, comportant des équivalents et des informations de nature linguistique dusage humain ou machinal. Il ne sagit pas de simples listes de mots, mais de champs typés dont les informations linguistiques peuvent être, entre autres, catégorielle, logique, et sémantique (pour chaque langue cible et pour la langue source le français).
Projet FeM phase II Ce projet a permis de construire un dictionnaire trilingue Français-anglais-Malais. Cette coopération à lorigine entre le GETA, l'UTMK, l'ambassade de France et l'Institut de la Langue et de la Littérature (Dewan Bahasa dan Pustaka - DBP) à Kuala Lumpur implique maintenant le LIRMM. Ce dictionnaire a été rendu public sous forme papier (Français-Malais seulement) la 5 juillet 1996, et a été accompagné dune forme électronique (Macintosh et PC) et sous Internet (Toile). Un CD-ROM contentant ce dictionnaire sous forme hypertextuelle a été développé par Mathieu LAFOURCADE et distribué par lAmbassade de France en Malaisie en septembre 1999. La phase II de ce projet consiste dans un premier temps à apporter les corrections nécessaires au dictionnaire aussi bien au niveau des données linguistique que des outils informatiques. Ce travail se fait sur la base des retours dinformations que nous avons reçus depuis juillet 1996. Dans un second temps, nous étudions les modalités conceptuelles et techniques de lautomatisation de son retournement.
Projet FeT Depuis 1997, Mathieu LAFOURCADE a responsabilité administrative et scientifique du projet de création de dictionnaire Français-anglais-Thaï. De nouveaux enjeux sont ici identifiés. Dune part, le thaï est une langue ne sécrivant pas avec les caractères romains et pose des difficultés au niveau du codage, des modes de transcriptions et de la gestion informatique. Cette langue ne fait pas systématiquement appel à un caractère de séparation, dont ce rôle est globalement tenu par lespace en français. Loutil dictionnaire doit permettre dindiquer à lutilisateur ou se situent les frontières de mots. Ceci est nécessaire à la fois pour faciliter lactivité dapprentissage de lutilisateur mais aussi pour rendre utilisable la nature hypertextuelle de tel outil. Nous avons de plus à définir une stratégie de production (semi-) automatique de la transcription vers une langue cible donnée. Une transcription anglaise du thaï sera différente dune transcription française. De plus, loutil dictionnaire en utilisation personnelle ou à travers la Toile, ne doit pas dépendre de linstallation a priori de ressources multilingues nécessaires à la visualisation ou manipulation dune langue non romane. La participation de Mathieu LAFOURCADE au groupe " internationalisation " du consortium W3C, est un effort vers la normalisation de solutions concernant linformatique multilingue.
Projet FeV Un nouveau projet en coopération avec lUniversité de Da Nang et le laboratoire CLIPS-IMAG à Grenoble visant à la création dun dictionnaire Français-Anglais-Vietnamien à été initié fin 1998. Léquipe TAL participe à ce projet afin de transmettre les savoir-faire élaborés lors des projets précédents.
Représentation informatique Dans les projets Fe*, le volume des données textuelles est important. Il est nécessaire de mettre au point des représentations informatique efficaces (en temps daccès et surtout en volume physique). Ces représentations peuvent être indépendantes des langues considérées (approche physique) ou non (stockage paradigmatique). Cette problématique nous a amené à considérer le problème de la plus courte superchaine. Ce problème sénonce simplement : étant donné un ensemble de chaînes de caractères C, calculer la chaîne S la plus courte possible, telle que chaque s de C soit infixe de S. Dapparence simple, ce problème est NP-complet et quelques groupe de recherche ont mis au point des algorithmes dapproximation. Notre perception du problème se caractérise par les données suivantes. En premier lieu nous manipulons un nombre élevé de chaînes (de lordre de k*100000). Ensuite, nous disposons dinformation sur les types de chaînes et nous pouvons donc adopter une approche dépendant de ces données. Enfin, il nous importe de pouvoir estimer la borne supérieure de lespace perdu. Léquipe TAL a commencé à développer de nouveaux algorithmes dapproximation pour ce problème. En particulier, nous disposons dune version any-time (cest-à-dire convergeant vers une solution approximative, mais dont le processus de calcul peut être interrompu). Avec F. Guinand de lUniversité du Havre, nous avons élaboré un algorithme parallèle de calcul de superchaîne [GUINAND 99a]. Ce travail en coopération savère particulièrement fertile et va se poursuivre.
Silfide Léquipe TAL participe également à la partie Grenobloise du projet Silfide (CNRS & AUPELF-UREF), qui vise à mettre à disposition sur la Toile des ressources linguistiques pour la francophonie. Les dictionnaires issus du projet FeM et leur outil ont ainsi été rendus publics par le biais dun serveur de dictionnaires.
- VECTEURS CONCEPTUELS
Travaux de Mathieu LAFOURCADE, Jacques CHAUCHE, Eugène SANDFORD
Nous avons considéré, de nouvelles structures de contrôle souhaitables pour les Langage Spécialisé pour la programmation Linguistique (LSPL), il en est de même pour les structures de données. Laugmentation des performances des machines aidant, il est enfin envisageable de concevoir la manipulation de vecteurs de très grande taille et en très grand nombre. Pour ce type de vecteur, les définitions associées à chaque mot (lemme) dune langue peuvent être automatiquement générées à partir de thésaurus informatisés. Il est possible dans bien des cas, deffectuer une levée automatique dambiguïté lexicale à laide de ces vecteurs. Le transfert lexical peut même sen trouver amélioré et ce malgré une indexation monolingue. On retrouve ici, les bonnes propriétés dindépendance des systèmes à pivot. Lensemble de lapproche a été présenté dans [LAFOURCADE 99]. Ces applicatons concernent la sélection lexicale, la traduction automatique et la recherche dinformations en contexte multilingue.
Cependant, de nombreuses questions informatiques doivent trouver leur réponse. Si on considère les locutions, le nombre de vecteurs pour une langue est de lordre de 200.000 et chaque vecteur a une taille de lordre de 5ko. Cest-à-dire que pour une langue, nous manipulons un volume de donnée de lordre du Go. Des algorithmes de compressions (sans perte dinformation et avec possibilités de recherche) doivent être découverts.
De plus, les techniques de recherche se base sur des algorithmes kNN (k Nearest Neighbours) dont la complexité est linéaire, ce qui reste élevé vu le volume des données. De nouveaux algorithmes et sans doute des relations dordre doivent être élaboré.
- TRADUCTION DE PAROLE et INT2GRATION D'ONTOLOGIES
Travaux de Mathieu LAFOURCADE
Le projet CSTAR cherche à analyser les problèmes liés à la réalisation dun système de traduction de parole. On se limite à des domaines bien définis (réservation hôtelière), mais dans un contexte multilingue (anglais, français, allemand, japonais, coréen, italien). Ce projet international (CMU, ETRI, ATR,
) est représenté pour la communauté francophone par le CLIPS++ (CLIPS, LIRMM, LATL). Le texte à traduire nest pas ici comme en Traduction Automatique, une suite continue de phrases, mais une suite de tours de parole dont lémetteur est alternativement chacune des deux (ou plus) parties en présence dans le dialogue. Les phrases contenues dans les dialogues sont souvent incomplètes, incluent des reprises, etc. Il est aussi nécessaire de garder la mémoire de ce qui a été dit.
Ce projet définit un "format dinterface" entre les participants. Ce format est syntaxiquement proche des graphes de Sowa. Il est intéressant de valider lutilisation de LSPL afin de produire ce type de format. En effet, plusieurs types dapproches sont possibles (génération classique, remplissage de schéma, etc.). Il est possible que la manipulation directe de nouveau type de structures (des graphes et non plus seulement des arbres étiquetés) soit nécessaire afin de faciliter lexpression des phases danalyse pour ce type dentrée.
Le projet CSTAR-II, présenté ci-dessus, pose des problèmes très intéressant et concret dintégration de composants. Une contrainte forte imposée par le scénario utilisateur est que la coordination doit se faire " en temps réel ". Mathieu LAFOURCADE a conçu et développé le premier prototype permettant lintégration des différents composants dont le CLIPS++ a la charge en vue de différentes démonstrations internationales. Larchitecture basée sur le concept de " tableau blanc ", dispose dun coordinateur qui orchestre les tâches de composants physiquement distribués et hétérogènes.
Le domaine d'application du projet CSTAR, la réservation touristique, a été décrit selon une ontologie. L'intégration de cette dernière dans le processus d'analyse est étudiée. Elle peut se faire "à la main" par l'écriture de règles similaire à celles de sysèmes experts. Ce processus est difficile. Nous étudions comment , il serait possible d'automatiser ce processus, soit par la génération automatique des règles, soit par des accès dynamiques durant l'analyse l'inguistique des informations ontologiques.
- TRADUCTION DE LANGAGES ARTIFICELS
Jacques CHAUCHE, Camal TAZINE, Mathieu LAFOURCADE
Il est intéressant dutiliser des LSPL dans un contexte dinformatique générale. Dans le cadre dun projet avec IBM, nous cherchons à utiliser de tels langages afin de " traduire " des programmes dun langage vers un autre. Dans le cas précis, il sagit de répondre à un besoin précis concernant la conversion de requêtes (du type SQL) entre plusieurs langages.
Le projet IBM-Sygmart est tout récent et financera entre autres une bourse Cifre pour la période sétendant de septembre 2000 à septembre 2003. Des candidats sont pressentis, mais la décision nest pas encore finalisé.
-
-
|