Maîtrise d'Informatique
Sujet de TER en TALN

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourcade@lirmm.fr

Didier SCHWAB
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 86 - Fax : 33 (0)4 67 41 85 00 - courriel : schwab@lirmm.fr

  Titre

    Décomposition et analyse morphologique de mots inconnus.

  Résumé

Dans le cadre d'un système d'indexation textuelle (articles de presse), on constate qu'un certain nombre de termes sont des création des auteurs par dérivation morphologique. Par exemple : jospinisme, redépollution, internetement, xmlage, voiturable, franco-russe, multispectral, etc.

On considérera une certains nombre de transformation typique comme

  1. terminaison en able (adjectivation) : enchaîner --> enchaînable
  2. préfixation (re, de - dé, in, a, etc.) : enchaînable --> inenchaînable, typique --> atypique
  3. préfixation d'origine grec, latine etc (multi, poly, hydro, etc).
  4. terminaison en "eux","ique" (adjectivation) : argent --> argenteux, argentique
  5. terminaison, en "ment" (adverbalisation ou nominalisation) : viable --> viablement
  6. terminaison en "eur" (nominalisation avec rôle agentif) : rire --> rieur, pleurer --> pleureur, gouache --> gouacheur
  7. etc

Les transformations peuvent se combiner. Selon le type de transformation, on peut associer des informations morphologique et sémantique : "eur " N et AGENT, "ment" (N ou ADV) et MANIERE, etc.

Le travail demandé pour ce projet consiste en :

  1. l'étude théorique des types de transformations et de leur caractèristiques morphologique et sémantique (pour le français). On pourra prendre comme corpus d'étude les articles du Monde disposnibles sur Internet (www.lemonde.fr).
  2. l'étude et la réalisation d'une application en Java qui propose les décompositions possibles pour un terme.
  3. la mise à disposition de cette application Java sous forme de serveur interrogeable à partir du web. les resultats affichés doivent être à la fois décodables par un utilisateur humain, mais aussi par un agent logiciel.

Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.

Groupe de 2 ou 3 personnes

Références potentiellement intéressantes :

Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001