Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr
Didier SCHWAB tel : 04 67 41 85 86 courriel :schwab@lirmm.fr
Dans le cadre d'un système d'indexation textuelle (par exemple, articles de presse), on constate qu'un certain nombre de termes sont inconnus et ne sont présents dans aucun dictionnaire. Il s'agit, en particulier, de noms d'entreprises, de personnes, de produits
On cherche, à partir de sites Web déjà référencés par des moteurs de recherche (comme Google) à extraire pour un terme inconnu une liste (pondérée) de termes associés. Certains sites proposent déjà ce type de services (par exemple : Vivisimo)
Par exemple, pour le terme Usinor, on pourrait procéder comme suit :
- lancer une requête à google
- extraire les termes des quelques premieres pages
- éventuellement fusionner les ensembles de termes en essayant de tenir compte de la polysémie
- rendre un résultat, par exemple : ((acier 10) (métallurgie 4)
(Sacilor 2)
)
Le terme candidat peut correspondre à plusieurs thèmes différents, et si nécessaire on cherchera à proposer plusieurs listes de termes associés. Pour ce projet, on fournis un dictionnaire de termes déja connus (disponible ici). La liste résultat fera référence aussi bien à ces termes qu'à des termes inconnus (qui feront aussi l'objet d'une recherche). On consituera ainsi un réseau de termes.
Le travail demandé pour ce projet consiste en :
- l'étude théorique des stratégies d'extraction de termes associés. En particulier comment pondérer les termes trouver dans une pages selon différents critères : position dans la page (titre, meta keywords),rareté du terme, etc.
- l'étude et la réalisation d'un prototype en Java (avec utilisation éventuelle de l'API dédié à Google : www.google.com/apis) qui calcule de telles liste de termes.
Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.
Groupe de 1 à 2 personnes
Références potentiellement intéressantes :
Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)
M. Crochemore, C. Hancart et ,T. Lecroq , Algorithmique du texte,Vuibert, 2001, 347 pages. ISBN 2-7117-8628-5 .