DEA INFORMATIQUE
module TALN

  Responsables et intervenants

Jacques CHAUCHE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 11 - Fax : 33 (0)4 67 41 85 00 - courriel : chauche@lirmm.fr

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

Violaine PRINCE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 74 - Fax : 33 (0)4 67 41 85 00 - courriel : prince@lirmm.fr

  Objectif

    Donner une vue d'ensemble du Traitement automatique du language naturel en mettant l'accent sur les modèles, méthodes et techniques permettant d'aborder les problémes de recherche à court et long terme. Le domaine d'application servant à illustrer le cours sera la traduction automatique.

  Durée : 20 h

  Plan

    Langage Naturel et Langage formel

grammaire formelle
— classification de Chomsky
— Grammaire régulières et automates. Application aux correcteurs orthographiques.
grammaires hors-contexte.
— algorithmes classiques (LR, LALR, Cocke, etc.)
systèmes transformationnels
— illustration avec le Langage Spécialisé pour le Programmation Linguistique (LSPL) TELESI
— Algorithmes de Markov.

    Analyse morphologique

approches dérivationnelle, flexionnelle, etc.
— grammaire à saturation et validation
— illustration avec le système PILAF
présentation du LSPL OPALE
— traitement des formes figées

    Analyse syntaxique

représentations syntaxiques
— arbres de dépendance, arbres de constituants, etc.
application avec le LSPL TELESI
— sous-grammaires
— traitement des lexies non figées
— notions sur le transfert et la génération
— formes pivot

    Analyse sémantique

sémantique lexicale
— approches statistiques
— approches par graphes conceptuels
— approche par vecteurs conceptuels.

    Problèmatiques spécifiques au multilinguisme et à la Traduction Automatique

présentation de grands systèmes
— ARIANE, METEO, METAL, KBMT
dictionnaires et bases de données lexicales
— approches statistiques, structurées, mixtes
— illustration avec le DEC
documents multilingues
— codage, représentation, structure.

  MCC : Etude d'articles et présentation orale (transparents — 15 mn).

  Bibliographie

    Principles of Compile Design — Aho, Ullman
    L'analyse syntaxique des langues naturelles — E.Wehrli
    Traitement Automatique du Langage Naturel — P. Bouillon
    An introduction to Machine Translation — Hutchins, Somers


 
 Propositions de sujets en option TAL (Traitement Automatique des Langages)

Année 03-04

SUJET 1 - Indexation mixte (lexicale et vectorielle) automatique d'entités nommées par forage du Web

SUJET 2 - Construction d'une base de vecteurs conceptuels à partir de dictionnaires bilingues (application à l'anglais)

SUJET 3 - Analyse sémantique de textes par algorithmes à fourmis colorées multi-castes

Année 99-00
SUJET 1 - Télédéveloppement de Traducteurs par le Web
SUJET 2 - Langage spécialisé de traitement structurel pour la TAO de l'écrit et de la parole
SUJET 3 - Inférences Logiques pour le Traitement des Langues Naturelles
Année 00-01
SUJET 1 - Vecteurs conceptuels et fonctions lexicales
SUJET 2 - Algorithme any-time pour l'analyse sémantique
Année 01-02
SUJET 1 - Indexation vectorielle de noms propres par forage de sites internet.
SUJET 2 - Construction d'une base vectorielle à partir de dictionnaires bilingues (application à l'anglais).
Année 02-03
SUJET 1 - Annotations et nommage de sens lexicaux

 Option TAL - étude d'articles

articles proposés en 02-03 pour l'option TALN

Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr