traitements algorithmiques

des langages

 page obsolète

   

Groupe TAL - Traitement Automatique du Langage - Traitements Algorithmiques des langages.

people

Jacques CHAUCHE, Mathieu LAFOURCADE, Violaine PRINCE (responsable), Didier SCHWAB

Mathieu LAFOURCADE - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. - mathieu.lafourcade@lirmm.fr
Jacques CHAUCHE - Bureau : 2.113 - Téléphone : 04 67 41 85 11 - Fax : 04 67 41 85 00. - chauche@lirmm.fr
Violaine PRINCE Bureau : 2.116 - Téléphone : 04 67 41 86 74 - Fax : 04 67 41 85 00. - prince@lirmm.fr
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5

La vieille page du lirmm

     
   

Objectif - maîtriser la communication

La communication humaine passe par le langage (écrit ou parlé - artificiel ou naturel - entre autres). L'objectif est de concevoir et de réaliser un artefact qui soit en mesure d'accepter des productions langagières, et de les interpréter en vue de la réalisation de tâches précises : traductions, recherche d'informations, dialogues, commandes de robots, instructions à réaliser, etc.

Thème de recherche - outils et méthodes pour le traitement algorithmique du langage

Le langage ici est à la fois les langues dites naturelles et les langages articifiels.

Un modèle est, dans ce contexte, une combinaison de modes de représentation (comme la langue naturelle, la logique, les structures arborescentes, les graphes, les espaces vectoriels, etc.) et leurs opérations associées. Une structure d'un modèle M est un objet acceptable dans M.

Nous pouvons décomposer notre thème en trois axes :

  • Appréhension : définir le passage d'une structure S1 dans un modèle M1 vers une structure S2 d'un modèle M2. Par exemple, le passage d'une production en langue naturelle vers une expression logique. La construction d'un outil s'appuit sur la définition d'algorithmes.
  • Transformation : définir le passage d'une structure S1 dans un modèle M vers une structure S2 du même modèle M. Par exemple, la transformation d'une structure syntaxique arborescente d'une phrase dans une langue L1 vers une structure syntaxique arborescente dans une langue L2.
  • Compréhension : définir, à partir de toutes structures d'un modèle M1, les structures correspondantes qui doivent être obtenues par appréhension. Il s'agit d'une application.

Dans ce cadre, notre recherche consiste à définir des modèles et des outils permettant de réaliser les trois axes précédents.

Moyens

Définition d'un modèle de forêts à multi-étiquettes partagées (fmep - dit éléments structurés).

Projection d'un texte sur un élément structuré.

Définition d'un algorithmes de traitement : Algorithmes de Markov sur les éléments structurés.

Projection d'un élément structuré sur un texte.

La définition des algorithme s'appuie sur la définition de linguiciels. Ceux-ci sont constitués de grammaires et de dictionnaires. La constitution de dictionnaires et des outils associés est un thème autonome.

Applications

Recherche d'informations : Niveau 1 - lemmatisation des composantes d'un texte et exploitation des lemmes. Niveau 2 - exploitation de la structure morpho-syntaxique. Niveau 3 - exploitation sémantique avec recherche de locution (voir projet Dictionnaires vocables sur la Toile).

Traduction croisée de langages de programmation : Il s'agit de définir une traduction d'un langage constructeur vers le même langage d'un autre constructeur en respectant les différentes contraintes: traduction SQL Oracle vers SQL db2 (projet IBM).

Traduction du langage naturel vers des langages de programmation : requettes en LN vers requettes en SQL ; expressions en LN vers expressions en logique du premier ordre ou graphes conceptuels (projet UNL) ; traduction de parole (requettes orale en transcription phonétique vers graphes conceptuels (projet C-STAR).

Traduction automatique

Partenaires

GETA-CLIPS-IMAG

IBM, Albert-inc, Datops

     
   

Idées clé

Définition d'un paradigme de programmation applicable au traitement du texte.

Une structure ne représente pas l'identité d'appartenance à un langage.

Une structure permet l'identification d'un élément par rapport à son contexte textuel.

Une transduction entre texte et structure est nécessaire.

La définition d'appartenance, si elle était nécessaire serait alors liée à celle de structures acceptables.

Une structure peut porter des éléments de natures différentes ayant chacunes leur interprétation (morphologiques, syntaxiques ou sémantiques).

     
   

SYGMART

Système transformationel markovien sur des forêts à multi-étiquettes partagées.

     
   

Projets

Dictionaires Fe* - français-anglais-malais (FEM I et II) - Français-anglais -thai (FET) - Français-anglais-vietnamien (FEV). Renversement de dictionnaire (FEM2MEF). Intégration UW (UNL).

LaSYG

CSTAR (www.c-star.org)

UNL

     
   
DICTIONNAIRES FE*

Travaux de Mathieu LAFOURCADE

Les projets de dictionnaires dans lesquels le groupe TAL s’investit visent à construire des dictionnaires des dictionnaires bilingues français-langue cible via l’anglais. Ces projets sont l’occasion d’aborder un certain nombre de problème liés à la création, la gestion de ressources lexicales multilingues.

Les dictionnaires visés, sont les dictionnaires structurés, comportant des équivalents et des informations de nature linguistique d’usage humain ou machinal. Il ne s’agit pas de simples listes de mots, mais de champs typés dont les informations linguistiques peuvent être, entre autres, catégorielle, logique, et sémantique (pour chaque langue cible et pour la langue source – le français).

Projet FeM phase II — Ce projet a permis de construire un dictionnaire trilingue Français-anglais-Malais. Cette coopération à l’origine entre le GETA, l'UTMK, l'ambassade de France et l'Institut de la Langue et de la Littérature (Dewan Bahasa dan Pustaka - DBP) à Kuala Lumpur implique maintenant le LIRMM. Ce dictionnaire a été rendu public sous forme papier (Français-Malais seulement) la 5 juillet 1996, et a été accompagné d’une forme électronique (Macintosh et PC) et sous Internet (Toile). Un CD-ROM contentant ce dictionnaire sous forme hypertextuelle a été développé par Mathieu LAFOURCADE et distribué par l’Ambassade de France en Malaisie en septembre 1999. La phase II de ce projet consiste dans un premier temps à apporter les corrections nécessaires au dictionnaire aussi bien au niveau des données linguistique que des outils informatiques. Ce travail se fait sur la base des retours d’informations que nous avons reçus depuis juillet 1996. Dans un second temps, nous étudions les modalités conceptuelles et techniques de l’automatisation de son retournement.

Projet FeT — Depuis 1997, Mathieu LAFOURCADE a responsabilité administrative et scientifique du projet de création de dictionnaire Français-anglais-Thaï. De nouveaux enjeux sont ici identifiés. D’une part, le thaï est une langue ne s’écrivant pas avec les caractères romains et pose des difficultés au niveau du codage, des modes de transcriptions et de la gestion informatique. Cette langue ne fait pas systématiquement appel à un caractère de séparation, dont ce rôle est globalement tenu par l’espace en français. L’outil dictionnaire doit permettre d’indiquer à l’utilisateur ou se situent les frontières de mots. Ceci est nécessaire à la fois pour faciliter l’activité d’apprentissage de l’utilisateur mais aussi pour rendre utilisable la nature hypertextuelle de tel outil. Nous avons de plus à définir une stratégie de production (semi-) automatique de la transcription vers une langue cible donnée. Une transcription anglaise du thaï sera différente d’une transcription française. De plus, l’outil dictionnaire en utilisation personnelle ou à travers la Toile, ne doit pas dépendre de l’installation a priori de ressources multilingues nécessaires à la visualisation ou manipulation d’une langue non romane. La participation de Mathieu LAFOURCADE au groupe " internationalisation " du consortium W3C, est un effort vers la normalisation de solutions concernant l’informatique multilingue.

Projet FeV — Un nouveau projet en coopération avec l’Université de Da Nang et le laboratoire CLIPS-IMAG à Grenoble visant à la création d’un dictionnaire Français-Anglais-Vietnamien à été initié fin 1998. L’équipe TAL participe à ce projet afin de transmettre les savoir-faire élaborés lors des projets précédents.

Représentation informatique — Dans les projets Fe*, le volume des données textuelles est important. Il est nécessaire de mettre au point des représentations informatique efficaces (en temps d’accès et surtout en volume physique). Ces représentations peuvent être indépendantes des langues considérées (approche physique) ou non (stockage paradigmatique). Cette problématique nous a amené à considérer le problème de la plus courte superchaine. Ce problème s’énonce simplement : étant donné un ensemble de chaînes de caractères C, calculer la chaîne S la plus courte possible, telle que chaque s de C soit infixe de S. D’apparence simple, ce problème est NP-complet et quelques groupe de recherche ont mis au point des algorithmes d’approximation. Notre perception du problème se caractérise par les données suivantes. En premier lieu nous manipulons un nombre élevé de chaînes (de l’ordre de k*100000). Ensuite, nous disposons d’information sur les types de chaînes et nous pouvons donc adopter une approche dépendant de ces données. Enfin, il nous importe de pouvoir estimer la borne supérieure de l’espace perdu. L’équipe TAL a commencé à développer de nouveaux algorithmes d’approximation pour ce problème. En particulier, nous disposons d’une version any-time (c’est-à-dire convergeant vers une solution approximative, mais dont le processus de calcul peut être interrompu). Avec F. Guinand de l’Université du Havre, nous avons élaboré un algorithme parallèle de calcul de superchaîne [GUINAND 99a]. Ce travail en coopération s’avère particulièrement fertile et va se poursuivre.

Silfide — L’équipe TAL participe également à la partie Grenobloise du projet Silfide (CNRS & AUPELF-UREF), qui vise à mettre à disposition sur la Toile des ressources linguistiques pour la francophonie. Les dictionnaires issus du projet FeM et leur outil ont ainsi été rendus publics par le biais d’un serveur de dictionnaires.

VECTEURS CONCEPTUELS

Travaux de Mathieu LAFOURCADE, Jacques CHAUCHE, Eugène SANDFORD

Nous avons considéré, de nouvelles structures de contrôle souhaitables pour les Langage Spécialisé pour la programmation Linguistique (LSPL), il en est de même pour les structures de données. L’augmentation des performances des machines aidant, il est enfin envisageable de concevoir la manipulation de vecteurs de très grande taille et en très grand nombre. Pour ce type de vecteur, les définitions associées à chaque mot (lemme) d’une langue peuvent être automatiquement générées à partir de thésaurus informatisés. Il est possible dans bien des cas, d’effectuer une levée automatique d’ambiguïté lexicale à l’aide de ces vecteurs. Le transfert lexical peut même s’en trouver amélioré et ce malgré une indexation monolingue. On retrouve ici, les bonnes propriétés d’indépendance des systèmes à pivot. L’ensemble de l’approche a été présenté dans [LAFOURCADE 99]. Ces applicatons concernent la sélection lexicale, la traduction automatique et la recherche d’informations en contexte multilingue.

Cependant, de nombreuses questions informatiques doivent trouver leur réponse. Si on considère les locutions, le nombre de vecteurs pour une langue est de l’ordre de 200.000 et chaque vecteur a une taille de l’ordre de 5ko. C’est-à-dire que pour une langue, nous manipulons un volume de donnée de l’ordre du Go. Des algorithmes de compressions (sans perte d’information et avec possibilités de recherche) doivent être découverts.

De plus, les techniques de recherche se base sur des algorithmes kNN (k Nearest Neighbours) dont la complexité est linéaire, ce qui reste élevé vu le volume des données. De nouveaux algorithmes et sans doute des relations d’ordre doivent être élaboré.

TRADUCTION DE PAROLE et INT2GRATION D'ONTOLOGIES

Travaux de Mathieu LAFOURCADE

Le projet CSTAR cherche à analyser les problèmes liés à la réalisation d’un système de traduction de parole. On se limite à des domaines bien définis (réservation hôtelière), mais dans un contexte multilingue (anglais, français, allemand, japonais, coréen, italien). Ce projet international (CMU, ETRI, ATR, …) est représenté pour la communauté francophone par le CLIPS++ (CLIPS, LIRMM, LATL). Le texte à traduire n’est pas ici comme en Traduction Automatique, une suite continue de phrases, mais une suite de tours de parole dont l’émetteur est alternativement chacune des deux (ou plus) parties en présence dans le dialogue. Les phrases contenues dans les dialogues sont souvent incomplètes, incluent des reprises, etc. Il est aussi nécessaire de garder la mémoire de ce qui a été dit.

Ce projet définit un "format d’interface" entre les participants. Ce format est syntaxiquement proche des graphes de Sowa. Il est intéressant de valider l’utilisation de LSPL afin de produire ce type de format. En effet, plusieurs types d’approches sont possibles (génération classique, remplissage de schéma, etc.). Il est possible que la manipulation directe de nouveau type de structures (des graphes et non plus seulement des arbres étiquetés) soit nécessaire afin de faciliter l’expression des phases d’analyse pour ce type d’entrée.

Le projet CSTAR-II, présenté ci-dessus, pose des problèmes très intéressant et concret d’intégration de composants. Une contrainte forte imposée par le scénario utilisateur est que la coordination doit se faire " en temps réel ". Mathieu LAFOURCADE a conçu et développé le premier prototype permettant l’intégration des différents composants dont le CLIPS++ a la charge en vue de différentes démonstrations internationales. L’architecture basée sur le concept de " tableau blanc ", dispose d’un coordinateur qui orchestre les tâches de composants physiquement distribués et hétérogènes.

Le domaine d'application du projet CSTAR, la réservation touristique, a été décrit selon une ontologie. L'intégration de cette dernière dans le processus d'analyse est étudiée. Elle peut se faire "à la main" par l'écriture de règles similaire à celles de sysèmes experts. Ce processus est difficile. Nous étudions comment , il serait possible d'automatiser ce processus, soit par la génération automatique des règles, soit par des accès dynamiques durant l'analyse l'inguistique des informations ontologiques.

TRADUCTION DE LANGAGES ARTIFICELS

Jacques CHAUCHE, Camal TAZINE, Mathieu LAFOURCADE

Il est intéressant d’utiliser des LSPL dans un contexte d’informatique générale. Dans le cadre d’un projet avec IBM, nous cherchons à utiliser de tels langages afin de " traduire " des programmes d’un langage vers un autre. Dans le cas précis, il s’agit de répondre à un besoin précis concernant la conversion de requêtes (du type SQL) entre plusieurs langages.

Le projet IBM-Sygmart est tout récent et financera entre autres une bourse Cifre pour la période s’étendant de septembre 2000 à septembre 2003. Des candidats sont pressentis, mais la décision n’est pas encore finalisé.

     
   
Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001
 

 

  T  

  A  

  L