Stage M2R - 2005/2006

Méthodes de fouille de données pour la classification de textes
(des mots aux documents textuels multilingues)


Encadrants : M. Teisseire (LIRMM), G. Dray (LGI2P)

Les méthodes de classification de documents textuels sont aujourd’hui au cœur de nombreuses applications et en particulier dans le domaine de la recherche d’information sur Internet. La plupart de ces méthodes sont basées sur une représentation vectorielle construite à partir d’une indexation automatique ou semi automatique des textes. De plus, cette étape d’indexation est propre à chaque langue. Comment traiter alors simplement et rapidement des jeux de données concernant des documents multilingues ?
De plus, les différents travaux menés concernent le texte dans sa globalité (mot, phrase, paragraphe …). Que faire d’un jeu de données proposé par l’INPI qui ne concerne que les noms des marques déposées depuis 1970 ? Seuls les caractères impliqués peuvent être considérés pour évaluer la pertinence de différentes méthodes de classification, des différentes méthodes de recherche de motifs.

L’objectif de ce sujet est de réaliser une étude de faisabilité sur l’application de méthodes de recherche de motifs et de classification sur des textes bruts constitués uniquement de noms ou bien de paragraphes non indexés. Les méthodes approximatives basées sur la théorie des sous-ensembles flous sont-elles prometteuses dans un tel contexte ?

Le travail à réaliser au cours de ce stage consiste à identifier des méthodes de recherche de motifs et de classification pour des données réputées difficiles, de définir différentes mesures d’évaluation et proposer une extension soit dans le contexte des noms de marque soit dans le contexte des documents multilingues ou mieux, adaptée aux deux. La mise en œuvre des solutions sera réalisée sur des bases de données réelles.


Bibliographie :

•    « ANFIS:Adaptive-Network-Based Fuzzy Inference system », Jyh-Shing Roger Jang
IEEE Trans. On Systems, Man, and Cybernetics, Vol. 23, N°3, May/June 1993
•    « Fuzzy Model Identification Based on Cluster Estimation », Stephen L. Chiu, Journal of Intelligent and Fuzzy Systems, Vol 2, p. 267-278, 1994
•    "Ordre et désordre dans la catégorisation de textes", S. Jaillet, M. Teisseire, A. Laurent, J. Chauché  20ièmes journées Bases de Données Avancées (BDA'2004), Octobre 2004, Montpellier.