DEA INFORMATIQUE
ANNEE 2001-2002

PROPOSITION DE PROJET
 

Responsables : M. LAFOURCADE, D. SCHWAB (co-encadrant)

Téléphone : 

04 67 41 85 11, - 85 71

Adresses électroniques : 

lafourca@lirmm.fr, schwab@lirmm.fr

Laboratoire et équipe : LIRMM - Dept ARC - Equipes TAL

TITRE :

Indexation vectorielle automatique de noms propres par forage de sites internet.

Résumé :

Actuellement la représentation thématique des noms propres (de personnes, d'institutions, de produits, de lieux ,etc) reste difficile dans la mesure ou les domaines concernés sont à la fois ambigues, changeants et flou. Par exemple, le terme "Concorde" réfère en plus de l'avion et de la place, à (au moins) une chaîne d'hôtels, une certains nombre de fournisseurs de services, etc. Leur évolution est rapide dans le temps contrairement au lexique de base. Il est absolument nécessaire d'automatiser l'indexation de tels termes, l'approche manuelle étant par nature sans fin. Enfin, pour les même raisons, il n'existe pas de ressources centralisé (des dictionnaires) en ce qui concerne ces termes

Par ailleurs, dans le cadre de l'équipe TAL du LIRMM, nous étudions des approches par vecteurs conceptuels. Ces derniers permettent de capturer les sèmes associé à un terme. Les calculs sur ces vecteurs en combinaisons avec les arbres d'analyses morpho-syntaxiques permttent d'affiner la pertinence de l'analyse. Il est ainsi possible d'effectuer avec de meilleurs résultat une sélection lexicale ou un transfert (dans le cadre de la traduction). Les noms propres sont en général absents des dictionnaires alors même qu'il sont porteurs d'une information en général déterminantes à la compréhension du texte. Leur indexation permettrait une amélioration notable de la pertienence globales des vecteurs associés à des segments textuels provant d'articles de presse (entre autres).

Le but de ce DEA est donc d'étudier et maquetter un environnement permettant la forage de sitesWeb et la construction d'un module d'indexation vectorielle automatique pour les noms propres. La recherche de coocuurrence de termes sera à la base des stratégies employées.

Résultats attendus

Pratiques (réalisations) :

Spécification et implémentation (en Java) d'un module de forage et d'indexation de nom propres.

Théoriques :

Étude bibliographique et analyse des approches d'extraction d'information textuelles concenants les noms propres et leur indexation en vue de leur exploitation dans la recherche d'information textuelle.

Remarques :

Ce DEA doit être envisagé comme une première étude en vue d'une thèse dans un cadre plus général de l'intégration d'approches statistiques (vecteurs), symboliques et lexicales pour l'apprentissage et la découverte lexicale par des agents automomes.

Mots-clés :

Analyse linguistique et arborescence, ressources lexicales, vecteurs conceptuels, indexation de noms propres.  


Contact : mathieu lafourcade LIRMM - 161, rue ADA - 34392 Montpellier Cedex 5 - France - Tél : (33) 04 67 41 85 71 - Fax : (33) 04 67 41 85 00 - courriel : lafourca@lirmm.fr