Maîtrise d'Informatique
Sujet de TER en TALN

année 2002-2003

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourca@lirmm.fr

Didier SCHWAB — tel : 04 67 41 85 86 — courriel :schwab@lirmm.fr

  Titre

    Extraction d'informations à partir de sites Web

  Résumé

Dans le cadre d'un système d'indexation textuelle (par exemple, articles de presse), on constate qu'un certain nombre de termes sont inconnus et ne sont présent dans aucun dictionnaire. Il s'agit, en particulier, de noms d'entreprises, de personnes, de produits… On cherche, à partir de sites Web déjà référencés par des moteurs de recherche (comme Google) à extraire pour un terme inconnu une liste (pondérée) de termes associés.

Par exemple, pour le terme Usinor, on pourrait procéder comme suit :

  1. lancer une requête à google
  2. extraire les termes des quelques premieres pages
  3. éventuellement fusionner les ensembles de termes en essayant de tenir compte de la polysémie
  4. rendre un résultat, par exemple : ((acier 10) (métallurgie 4) …(Sacilor 2) …)

Le terme candidat peut correspondre à plusieurs thèmes différents, et si nécessaire on cherchera à proposer plusieurs listes de termes associés. Pour ce projet, on fournis un dictionnaire de termes déja connus (disponible ici). La liste résultat fera référence aussi bien à ces termes qu'à des termes inconnus (qui feront aussi l'objet d'une recherche). On consituera ainsi un réseau de termes.

Le travail demandé pour ce projet consiste en :

  1. l'étude théorique des stratégies d'extraction de termes associés.
  2. l'étude et la réalisation d'une application en Java (avec utilisation éventuelle de l'API dédié à Google : www.google.com/apis) qui calcule de telles liste de termes.

Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.

Groupe de 2 à 4 personnes

Références potentiellement intéressantes :

Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001