Maîtrise d'Informatique
Sujet de TER en TALN

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

Didier SCHWAB

  Titre

    Proposition de mots othographiquement proches à partir d'un mot mal orthographique

  Résumé

Dans le cadre d'un système d'indexation textuelle (articles de presse), on constate qu'un certain nombre de termes sont mal orthographié et ne sont donc pas reconnus. Pour palier à cette difficulté, nous souhaitons mettre en place une procédure qui permet de proposer à partir d'un mot inconnu les termes les "plus probables" . Il s'agit de construire une liste de mots possibles (issus d'un dictionnaire), ordonnées selon leur probabilité décroissante.

On considérera une certains nombre d'erreurs typiques comme :

  1. mauvaise accentation : chene --> chêne, événement --> évènement, teléphonique --> téléphonique, etc.
  2. duplication de lettres : carractère --> caractère, consonnne --> consonne
  3. suppression de lettres (voyelles ou consonnes) : caraactère --> caractère, fiablité --> fiabilité
  4. inversion de lettres : carcatère --> caractère
  5. etc

Les erreurs peuvent se combiner. Selon le type d'erreur la "distance" entre le mot erroné et sa version correcte peut varier (les errerus sont plus ou moins graves). Par exemple, on peut avoir :

erreur acccent < duplication de consonnes < duplication de voyelles < suppression de lettres < …

Le travail demandé pour ce projet consiste en :

  1. l'étude théorique des types d'erreurs et de leur hiérarchisation (pour le français). On pourra prendre comme corpus d'étude les articles du Monde disposnibles sur Internet (www.lemonde.fr).
  2. l'étude et la réalisation d'une application en Java qui propose les n plus proches termes corrects (associé à leur probabilité).

Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.

Groupe de 2 ou 3 personnes

Références potentiellement intéressantes :

Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001