Projet "Extraction de Connaissances dans les Données" (Master Informatique)- 2007/2008
Classification de textes
Encadrement
: J. Chauché et M. Roche
Le but de ce projet consiste à mettre en oeuvre et évaluer une méthode de classification de documents programmée en Perl, Python, Java ou autres.
Première étape : constitution du corpus
Dans un premier temps, un corpus devra être constitué.
Nous proposons d'acquérir un corpus de cinq thèmes distincts (par exemple, la politique, la cuisine, etc).
Ce corpus devra être normalisé (suppression des balises HTML, etc).
Pour ce faire, vous devrez rechercher dix textes écrits en français ou en anglais relatifs à chacun de ces cinq thèmes.
Deuxième étape : mise en oeuvre d'un algorithme de classification
La suite du travail consistera à mettre en oeuvre un algorithme de classification.
De nombreuses approches d'apprentissage peuvent être utilisées pour la classification de textes :
K plus proches voisins
Arbres de décisions
Naïve Bayes
Réseaux de neurones
Machines à support de vecteurs
Dans ce projet, nous proposons d'utiliser la méthode bien connue des K plus proches voisins (KPPV) vue en cours.
Précisons qu'avant d'appliquer cet algorithme, la représentation des textes sous forme matricielle doit être effectuée.
Troisième étape : prise en compte d'informations linguistiques
Le but ici est d'utiliser vos textes avec différentes informations :
Textes bruts.
Textes lemmatisés.
Textes lemmatisés avec analyse syntaxique.
Pour obtenir de telles connaissances, vous pouvez utiliser l'analyseur syntaxique Sygmart (pour les textes en français) également vu en cours.
Une analyse complète de la qualité de la classification selon les différents cas pourra être proposée.
Les étudiants pourront également s'intéresser à d'autres types de connaissances linguistiques (par exemple, la terminologie), sémantiques, etc.
Dans ce projet, différents critères peuvent aussi être étudiés (paramètre K de l'algorithme des KPPV), élagage, normalisation du type tf*idf, etc.
Bien entendu, tous ces critères ne pourront être étudiés dans le cadre de ce projet.
Il est donc préférable que chaque groupe étudie des aspects précis en y apportant une évaluation rigoureuse et une analyse approfondie.
Remarque :
Si des étudiants choisissent de ne pas implanter l'algorithme des KPPV mais d'utiliser celui du logiciel Weka, un développement plus riche de la dernière partie du projet est attendu.