Encadrement
: M. Roche, J. Chauché, A. Laurent
Le but de ce projet consiste à mettre en oeuvre et évaluer une méthode de classification de documents véhiculant des opinions.
Les porgammes développés pourront être développés en Perl, Python, PHP, Java ou autres.
Première étape : constitution du corpus
Dans un premier temps, un corpus devra être constitué.
Nous proposons d'acquérir un corpus véhiculant une opinion sur une thématique précise (critique de films, livres, produits).
Deux à trois catégories d'opinions seront alors proposées (positif, négatif et éventuellement neutre).
Ces catégories seront automatiquement attribuées au regard des notes associées aux critiques.
Pour ce faire, vous devrez rechercher dix à quinze textes écrits en français ou en anglais relatifs à chaque catégorie d'opinion.
Ce corpus devra être normalisé (suppression des balises HTML, etc).
Deuxième étape : mise en oeuvre d'un algorithme de classification
La suite du travail consistera à mettre en oeuvre un algorithme de classification.
De nombreuses approches d'apprentissage peuvent être utilisées pour la classification de textes :
K plus proches voisins
Arbres de décisions
Naïve Bayes
Réseaux de neurones
Machines à support de vecteurs
Dans ce projet, nous proposons d'utiliser la méthode bien connue des K plus proches voisins (KPPV) vue en cours.
Précisons qu'avant d'appliquer cet algorithme, la représentation des textes sous forme matricielle doit être effectuée.
Troisième étape : prise en compte d'informations linguistiques
Le but ici est d'utiliser vos textes avec différentes informations :
Textes bruts.
Textes lemmatisés.
Textes lemmatisés avec analyse syntaxique.
Pour obtenir de telles connaissances, vous pouvez utiliser l'analyseur syntaxique Sygmart (pour les textes en français) également vu en cours.
Une analyse complète de la qualité de la classification selon les différents cas pourra être proposée.
Les étudiants pourront également s'intéresser à d'autres types de connaissances linguistiques (par exemple, la terminologie), sémantiques, etc.
Dans ce projet, différents critères peuvent aussi être étudiés (paramètre K de l'algorithme des KPPV), élagage, normalisation du type tf*idf, etc.
Bien entendu, tous ces critères ne pourront être étudiés dans le cadre de ce projet.
Il est donc préférable que chaque groupe étudie des aspects précis en y apportant une évaluation rigoureuse et une analyse approfondie.
Remarque 1 : Le thème de la classification des textes d'opinions laisse penser que certains types de mots peuvent se révéler particulièrment discriminants (adjectifs, adverbes, etc). Une discussion sur l'influence de tels marqueurs morpho-syntaxiques sera bienvenue.
Remarque 2 :
Si des étudiants choisissent de ne pas implanter l'algorithme des KPPV mais d'utiliser celui du logiciel Weka, un développement plus riche de la dernière partie du projet est attendu.