IUP GMI 2 - 2003-2004
Sujet de Stage

année 2003-2004

  Responsables

Mathieu LAFOURCADE
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tel : (33) 04 67 41 85 71 - Fax : 33 (0)4 67 41 85 00 - courriel : lafourcade@lirmm.fr

Didier SCHWAB
LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - tel : 04 67 41 85 86 - Fax : 33 (0)4 67 41 85 00 — courriel : schwab@lirmm.fr

  Titre

    Extraction de locutions par recherche de collocations dans des documents du Web

  Résumé

Dans le cadre d'un système d'indexation textuelle (par exemple, articles de presse), on constate qu'un certain nombre de locutions (comme "jeux de rôle", "développement durable", "sommet de Rio", "moteur de recherche", etc.) sont inconnues et ne sont présentes dans aucun dictionnaire. On cherche, à partir de sites Web déjà référencés par des moteurs de recherche (comme Google) à extraire de tels termes composés. L'idée de base est de comptabiliser pour chaque terme ses voisins et de proposer une locution dès que le nombre d'occurences est assez élevé.

On fournit comme base de départ un dictionnaire de termes (avec catégories morphosyntaxiques).

Le travail demandé pour ce projet consiste en :

  1. l'étude théorique des stratégies d'extraction de locutions.
  2. l'étude et la réalisation d'un prototype en Java (avec utilisation éventuelle de l'API dédié à Google : www.google.com/apis) qui effectue un tel traitement.

Aucune compétence spécifique (en particulier linguistique) n'est nécessaire pour la réalisation de ce projet.

Groupe de 2 à 4 personnes.

Références potentiellement intéressantes :

M. Crochemore, C. Hancart et ,T. Lecroq , Algorithmique du texte,Vuibert, 2001, 347 pages. ISBN 2-7117-8628-5

Travaux de Béatrice Daille (à cherche sur Internet).

Mathieu LAFOURCADE 
LIRMM - 161, rue Ada — 34392 Montpellier Cedex 5 - Bureau : 2.114 - Téléphone : 04 67 41 85 71 - Fax : 04 67 41 85 00. mathieu.lafourcade@lirmm.fr
Dernière mise à jour : le 25/9/2001