TP5 - Étiquetage morphosyntaxique

Le but du TP est de manipuler les expressions rationnelles pour découper les textes en tokens. Nous aborderons l'indexation de documents et la recherche de motifs.

Préliminaires

Pour cette séance, vous avez à disposition une collection de textes étiquetés manuellement en catégorie grammaticale.

Exercice 1 - Étiquetage morphosyntaxique

Pour cet exercice, on utilisera seulement les fichiers A01.txt, A02.txt et A03.txt.

Installation et prise en main de Weka

Nous allons utiliser le logiciel Weka, dans lequel plusieurs algorithmes de classification supervisée sont implémentés.


Test des méthodes de classification supervisée de Weka pour l'étiquetage grammatical