Dans le cadre d'un système d'indexation textuelle (articles de presse), on constate qu'un certain nombre de termes sont mal orthographié et ne sont donc pas reconnus. Pour palier à cette difficulté, nous souhaitons mettre en place une procédure qui permet de proposer à partir d'un mot inconnu les termes les "plus probables" . Il s'agit de construire une liste de mots possibles (issus d'un dictionnaire), ordonnées selon leur probabilité décroissante.
On considérera une certains nombre d'erreurs typiques comme :
- mauvaise accentation : chene --> chêne, événement --> évènement, teléphonique --> téléphonique, etc.
- duplication de lettres : carractère --> caractère, consonnne --> consonne
- suppression de lettres (voyelles ou consonnes) : caraactère --> caractère, fiablité --> fiabilité
- inversion de lettres : carcatère --> caractère
- etc
Les erreurs peuvent se combiner. Selon le type d'erreur la "distance" entre le mot erroné et sa version correcte peut varier (les errerus sont plus ou moins graves). Par exemple, on peut avoir :
erreur acccent < duplication de consonnes < duplication de voyelles < suppression de lettres <
Le travail demandé pour ce projet consiste en :
- l'étude théorique des types d'erreurs et de leur hiérarchisation (pour le français). On pourra prendre comme corpus d'étude les articles du Monde disposnibles sur Internet (www.lemonde.fr).
- l'étude et la réalisation d'une application en Java qui propose les n plus proches termes corrects (associé à leur probabilité).
Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.
Groupe de 2 ou 3 personnes
Références potentiellement intéressantes :
Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)