DEA INFORMATIQUE
ANNEE 2003-2004

PROPOSITION DE PROJET
 

Responsables : M. LAFOURCADE, D. SCHWAB (co-encadrant)

Téléphone : 

04 67 41 85 71, - 85 86

Adresses électroniques : 

lafourca@lirmm.fr, schwab@lirmm.fr

Laboratoire et équipe : LIRMM - Dept Informatique - Equipes TAL

TITRE :

Indexation mixte (lexicale et vectorielle) automatique
d'entités nommées par forage du Web

Résumé :

Actuellement la représentation thématique des noms propres (de personnes, d'institutions, de produits, de lieux ,etc) reste difficile dans la mesure ou les domaines concernés sont à la fois ambigues, changeants et flou. Par exemple, le terme "Orange" réfère en plus de la couleur ou du fruit (modulo la majuscule), à (au moins) un opérateur de téléphonie, une radio libre, une ville (au moins une) etc. Leur évolution est rapide dans le temps contrairement au lexique de base. Il est absolument nécessaire d'automatiser l'indexation de tels termes, l'approche manuelle étant par nature sans fin. Enfin, pour les même raisons, il n'existe pas de ressources centralisé (des dictionnaires) en ce qui concerne ces termes

Par ailleurs, dans le cadre de l'équipe TAL du LIRMM, nous étudions des approches mixant les vecteurs conceptuels et les relations lexicales. Les vecteurs permettent de capturer les sèmes associé à un terme. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permettent d'affiner la pertinence de l'analyse. Il est ainsi possible d'effectuer avec de meilleurs résultat une sélection lexicale ou un transfert (dans le cadre de la traduction). Les noms propres sont en général absents des dictionnaires alors même qu'il sont porteurs d'une information en général déterminantes à la compréhension du texte. Leur indexation permettrait une amélioration notable de la pertienence globales des vecteurs associés à des segments textuels provant d'articles de presse (entre autres).

Le but de ce DEA est donc d'étudier et maquetter un environnement permettant la forage de sites Web et la construction d'un module d'indexation vectorielle automatique pour les noms propres. La recherche de coocuurrence de termes sera à la base des stratégies employées.

Résultats attendus

Pratiques (réalisations) :

Spécification et implémentation (en Java) des modules (agents) de forage et d'indexation de nom propres.

Théoriques :

Étude bibliographique et analyse des approches d'extraction d'information textuelles concenants les noms propres et leur indexation en vue de leur exploitation dans la recherche d'information textuelle.

Remarques :

Ce DEA doit être envisagé comme une première étude en vue d'une thèse dans un cadre plus général de l'intégration d'approches statistiques (vecteurs), symboliques et lexicales pour l'apprentissage et la découverte lexicale par des agents automomes.

Mots-clés :

Analyse linguistique et arborescence, ressources lexicales, vecteurs conceptuels, indexation de noms propres.  


Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr