Maîtrise d'Informatique
option TALN
(Traitement Automatique du Langage Naturel)

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

  intervenant

Jacques CHAUCHE, Mathieu LAFOURCADE, Violaine PRINCE

  Objectif

    Donner une vue d'ensemble des enjeux du Traitement automatique du language naturel en mettant l'accent sur les modèles, méthodes et techniques permettant d'aborder les applications et les problémes de recherche à court et long terme. Le domaine d'application servant à illustrer le cours seront :

  • l'indexaction et la recherche de documents multilingues (moteur de recherche Web)
  • traduction automatique.

  Durée

    20 h

  Plan

    Langage Naturel et Langage formel (rappels)

  1. grammaire formelle
    — classification de Chomsky
    — grammaire régulières et automates. Application aux correcteurs orthographiques.
  2. grammaires hors-contexte.
    — algorithmes classiques (LR, LALR, Cocke, etc.)
  3. systèmes transformationnels
    — illustration avec le Langage Spécialisé pour le Programmation Linguistique (LSPL) TELESI
  4. Algorithmes de Markov.

    Analyse morphologique

  1. approches dérivationnelle, flexionnelle, etc.
  2. grammaire à saturation et validation
    — illustration avec le système PILAF
  3. présentation du LSPL OPALE
  4. traitement des formes figées

    Analyse syntaxique

  1. représentations syntaxiques
    — arbres de dépendance, arbres de constituants, etc.
    application avec le LSPL TELESI-
  2. sous-grammaires
  3. traitement des lexies non figées
  4. notions sur le transfert et la génération
  5. formes pivot

    Analyse sémantique

  1. sémantique lexicale
    — approches statistiques
    — approches par graphes conceptuels
    — approche par vecteurs conceptuels.
  2. sémantique textuelle
    — algorithme de propagation
    — algorithmes par fourmis

Indexation de textes et recherche d'informations

  1. Requêtes et calcul de vecteurs (Salton, LSI, vecteurs conceptuels)
  2. Pb des nom propres
  3. Pb des mots inconnus

    Problèmatiques spécifiques au multilinguisme et à la Traduction Automatique

  1. présentation de grands systèmes
    — ARIANE, METEO, METAL, KBMT
  2. dictionnaires et bases de données lexicales
    — approches statistiques, structurées, mixtes
    — illustration avec le DEC
    documents multilingues
  3. — codage, représentation, structure.

  MCC

    Sujet d'examen ( étude d'article + exercices )

  Bibliographie

    Principles of Compile Design — Aho, Ullman
    L'analyse syntaxique des langues naturelles — Wehrli
    Traitement Automatique du Langage Naturel — Bouillon
    An introduction to Machine Translation — Hutchins, Somers

  Support de cours

Sémantique lexicale et vecteurs conceptuel (ppt / html)

  Proposition de sujets liés aux TAL en TER

Sujets de l'année 2002-2003

SUJET 1 - Décomposition et analyses de mots inconnus

SUJET 2 - Extraction et classification d'informations thématiques à partir de sites Web

Sujets de l'année 2002-2003

SUJET 1 - Extraction d'informations à partir de sites Web

Sujets de l'année 2001-2002

SUJET 1 - Proposition de mots othographiquement proches à partir d'un mot mal orthographique

SUJET 2 - Décomposition morphologique de mots inconnus.

SUJET 3 - Accès à un dictionnaire d'usage multilingue.

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001