Exploration et Exploitation de Données Textuelles (TEXTE)

SYNTAXE, SÉMANTIQUE TEXTUELLE, SÉMANTIQUE LEXICALE, MODÈLES ALGÉBRIQUES, MODÈLES VECTORIELS, FOUILLE DE TEXTES, MODÈLES DE DIALOGUE.

Responsable de l'équipe : Mathieu Roche

Co-responsable de l'équipe : Mathieu Lafourcade

Objectifs de l'équipe :

  • développer des modèles et des outils pour le traitement de la langue et les évaluer par le biais d'applications connues, de préférence lors de compétitions nationales et internationales (tels que les campagnes TREC, MUC, DEFT, etc.)

Deux domaines théoriques du traitement automatique des langues :

  • La syntaxe (modèles : algorithmes de Markov sur les arbres, pré-groupes de Lambek),
  • La sémantique (sémantique vectorielle, réseaux lexicaux), avec quelques incursions dans la pragmatique.

Quelques domaines d’application :

  • La génération de bases lexicales monolingues (thèse de D. Schwab, 2005) et multilingues,
  • L’aide à la terminologie, la catégorisation thématique de textes (thèse A. Labadié 2008),
  • Le résumé de textes par compression (thèse de M. Yousfi-Monod 2007),
  • La traduction automatique (thèse de Johan Segura, depuis septembre 2009),
  • Le titrage automatique de documents (thèse de Cédric Lopez, depuis octobre 2009).

L'équipe :

  • 12 membres : 6 permanents, 2 associées, 2 doctorants, 1 post doctorant, 1 doctorant associé.