IUP GMI 2 - 2003
Sujet de Stage

année 2002-2003

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

Didier SCHWAB — tel : 04 67 41 85 86 — courriel :schwab@lirmm.fr

  Titre

    Extraction d'informations lexicales et thématiques à partir de sites Web

  Résumé

Dans le cadre d'un système d'indexation textuelle (par exemple, articles de presse), on constate qu'un certain nombre de termes sont inconnus et ne sont présents dans aucun dictionnaire. Il s'agit, en particulier, de noms d'entreprises, de personnes, de produits… On cherche, à partir de sites Web déjà référencés par des moteurs de recherche (comme Google) à extraire pour un terme inconnu une liste (pondérée) de termes associés. Certains sites proposent déjà ce type de services (par exemple : Vivisimo)

Par exemple, pour le terme Usinor, on pourrait procéder comme suit :

  1. lancer une requête à google
  2. extraire les termes des quelques premieres pages
  3. éventuellement fusionner les ensembles de termes en essayant de tenir compte de la polysémie
  4. rendre un résultat, par exemple : ((acier 10) (métallurgie 4) …(Sacilor 2) …)

Le terme candidat peut correspondre à plusieurs thèmes différents, et si nécessaire on cherchera à proposer plusieurs listes de termes associés. Pour ce projet, on fournis un dictionnaire de termes déja connus (disponible ici). La liste résultat fera référence aussi bien à ces termes qu'à des termes inconnus (qui feront aussi l'objet d'une recherche). On consituera ainsi un réseau de termes.

Le travail demandé pour ce projet consiste en :

  1. l'étude théorique des stratégies d'extraction de termes associés. En particulier comment pondérer les termes trouver dans une pages selon différents critères : position dans la page (titre, meta keywords),rareté du terme, etc.
  2. l'étude et la réalisation d'un prototype en Java (avec utilisation éventuelle de l'API dédié à Google : www.google.com/apis) qui calcule de telles liste de termes.

Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.

Groupe de 1 à 2 personnes

Références potentiellement intéressantes :

Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)

M. Crochemore, C. Hancart et ,T. Lecroq , Algorithmique du texte,Vuibert, 2001, 347 pages. ISBN 2-7117-8628-5 .

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001