** Recup url : http://www.lirmm.fr/~lafourca/ML-enseign/MaitInfo/MaitInfo-optTALN.html DESS IAO 99/00 Sujets de TALN

Maîtrise d'Informatique
option TALN
(Traitement Automatique du Langage Naturel)

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

  intervenant

Jacques CHAUCHE, Mathieu LAFOURCADE, Violaine PRINCE

  Objectif

    Donner une vue d'ensemble des enjeux du Traitement automatique du language naturel en mettant l'accent sur les modèles, méthodes et techniques permettant d'aborder les applications et les problémes de recherche à court et long terme. Le domaine d'application servant à illustrer le cours seront :

  • l'indexaction et la recherche de documents multilingues (moteur de recherche Web)
  • traduction automatique.

  Durée

    20 h

  Plan

    Langage Naturel et Langage formel (rappels)

  • grammaire formelle
  • — classification de Chomsky
  • — Grammaire régulières et automates. Application aux correcteurs orthographiques.
  • grammaires hors-contexte.
  • — algorithmes classiques (LR, LALR, Cocke, etc.)
  • systèmes transformationnels
  • — illustration avec le Langage Spécialisé pour le Programmation Linguistique (LSPL) TELESI
  • — Algorithmes de Markov.
    • Analyse morphologique

  • approches dérivationnelle, flexionnelle, etc.
  • — grammaire à saturation et validation
  • — illustration avec le système PILAF
  • présentation du LSPL OPALE
  • — traitement des formes figées
    • Analyse syntaxique

  • représentations syntaxiques
  • — arbres de dépendance, arbres de constituants, etc.
  • application avec le LSPL TELESI
  • — sous-grammaires
  • — traitement des lexies non figées
  • — notions sur le transfert et la génération
  • — formes pivot
    • Analyse sémantique

  • sémantique lexicale
    — approches statistiques
  • — approches par graphes conceptuels
  • — approche par vecteurs conceptuels.
  • Indexation de textes et recherche d'informations

  • Requêtes et calcul de vecteurs (Salton, LSI, vecteurs conceptuels)
  • Pb des nom propres
  • Pb des mots inconnus
    • Problèmatiques spécifiques au multilinguisme et à la Traduction Automatique

  • présentation de grands systèmes
  • — ARIANE, METEO, METAL, KBMT
  • dictionnaires et bases de données lexicales
  • — approches statistiques, structurées, mixtes
  • — illustration avec le DEC
  • documents multilingues
  • — codage, représentation, structure.
  •   MCC

      Sujet d'examen ( étude d'article + exercices )

      Bibliographie

      Principles of Compile Design — Aho, Ullman

      L'analyse syntaxique des langues naturelles — Wehrli

      Traitement Automatique du Langage Naturel — Bouillon

      An introduction to Machine Translation — Hutchins, Somers

      Proposition de sujets liés aux TAL en TER

    Sujets de l'année 2002-2003

    SUJET 1 - Extraction d'informations à partir de sites Web

    Sujets de l'année 2001-2002

    SUJET 1 - Proposition de mots othographiquement proches à partir d'un mot mal orthographique

    SUJET 2 - Décomposition morphologique de mots inconnus.

    SUJET 3 - Accès à un dictionnaire d'usage multilingue.

    Mathieu LAFOURCADE 
    LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
    Dernière mise à jour : le 25/9/2001