Maîtrise d'Informatique
Sujet de TER en TALN

année 2003-2004

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourcade@lirmm.fr

Didier SCHWAB
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 86 - Fax : 33 (0)4 67 41 85 00 - courriel : schwab@lirmm.fr

  Titre

    Extraction et classification d'informations thématiques à partir de sites Web

  Résumé

Dans le cadre d'un système d'indexation textuelle (par exemple, articles de presse), on constate qu'un certain nombre de termes sont inconnus et ne sont présents dans aucun dictionnaire. Il s'agit, en particulier, de noms d'entreprises, de personnes, de produits… On cherche, à partir de sites Web déjà référencés par des moteurs de recherche (comme Google) à extraire pour un terme inconnu une liste (pondérée) de termes associés.

Par exemple, pour le terme Usinor, on pourrait procéder comme suit :

  1. lancer une requête à google
  2. extraire les termes des quelques premieres pages (dison au environ 50)
  3. éventuellement fusionner les ensembles de termes en essayant de tenir compte de la polysémie
  4. rendre un résultat, par exemple : ((acier 10) (métallurgie 4) …(Sacilor 2) …)

Le terme candidat peut correspondre à plusieurs thèmes différents, et si nécessaire on cherchera à proposer plusieurs listes de termes associés. ON peut comparer deux listes de termes en calcullant leur intersection et généraliser au cas où les listes sont pondéées. Pour ce projet, on fournit un dictionnaire de termes déja connus (disponible ici). La liste résultat fera référence aussi bien à ces termes qu'à des termes inconnus (qui feront aussi l'objet d'une recherche). On consituera ainsi un réseau de termes (il n'est pas demandé dans ce projet de représenter graphiquement cette liste).

Le travail demandé pour ce projet consiste en :

  1. l'étude théorique des stratégies d'extraction de termes associés, de la consitution des listes, de leur comparaison et de leur fusion.
  2. l'étude et la réalisation d'une application en Java (avec utilisation éventuelle de l'API dédié à Google : www.google.com/apis, ou autre) qui calcule de telles liste de termes
  3. l'expérimentation et la consitution d'un grand réseau de termes (pour au moins 10000 termes)

Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.

Groupe de 2 à 4 personnes

Références potentiellement intéressantes :

Introduction à la lexicologie : sémantique et morphologie. Alise Lehman et Françoise Martin-Berthet. Nathan Université (col. Lettres Sup.)

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001