Encadrants
: M. Teisseire (LIRMM), G. Dray (LGI2P)
Les méthodes de classification
de documents textuels sont aujourd’hui au cœur de nombreuses
applications et en particulier dans le domaine de la recherche
d’information sur Internet. La plupart de ces méthodes sont
basées sur une représentation vectorielle construite
à partir d’une indexation automatique ou semi automatique des
textes. De plus, cette étape d’indexation est propre à
chaque langue. Comment traiter alors simplement et rapidement des jeux
de données concernant des documents multilingues ?
De plus, les différents travaux menés concernent le texte
dans sa globalité (mot, phrase, paragraphe …). Que faire d’un
jeu de données proposé par l’INPI qui ne concerne que les
noms des marques déposées depuis 1970 ? Seuls les
caractères impliqués peuvent être
considérés pour évaluer la pertinence de
différentes méthodes de classification, des
différentes méthodes de recherche de motifs.
L’objectif de ce sujet est de réaliser une étude de
faisabilité sur l’application de méthodes de recherche de
motifs et de classification sur des textes bruts constitués
uniquement de noms ou bien de paragraphes non indexés. Les
méthodes approximatives basées sur la théorie des
sous-ensembles flous sont-elles prometteuses dans un tel contexte ?
Le travail à réaliser au cours de ce stage consiste
à identifier des méthodes de recherche de motifs et de
classification pour des données réputées
difficiles, de définir différentes mesures
d’évaluation et proposer une extension soit dans le contexte des
noms de marque soit dans le contexte des documents multilingues ou
mieux, adaptée aux deux. La mise en œuvre des solutions sera
réalisée sur des bases de données réelles.
Bibliographie :
• « ANFIS:Adaptive-Network-Based Fuzzy
Inference system », Jyh-Shing Roger Jang
IEEE Trans. On Systems, Man, and Cybernetics, Vol. 23, N°3,
May/June 1993
• « Fuzzy Model Identification Based on Cluster
Estimation », Stephen L. Chiu, Journal of Intelligent and Fuzzy
Systems, Vol 2, p. 267-278, 1994
• "Ordre et désordre dans la
catégorisation de textes", S. Jaillet, M. Teisseire, A. Laurent,
J. Chauché 20ièmes journées Bases de
Données Avancées (BDA'2004), Octobre 2004, Montpellier.