Extraction des Connaissances dans les Données (ECD)
Master 2
| Planning |
Le planning de cet enseignement est disponible ici
| Cours |
Cours 1 - 24 septembre 2007 (3h)
- Généralités sur la fouille de données : 
- Processus Global de Fouille de Textes : 
- Processus FdT : Etiquetage grammatical : 
- Processus FdT : Extraction de la terminolgie (approche non supervisée) :
Cours 2 - 1er octobre 2007 (3h)
- Processus FdT : Extraction de la terminolgie (approche supervisée) : 
- Processus FdT : Classification Conceptuelle :
Cours 3 - 8 octobre 2007 (3h)
- Approche de Salton 1 (cours de Violaine Prince)
- Généralités RI : 
Cours 4 - 15 octobre 2007 (3h)
- Approche de Salton 2 (cours de Violaine Prince)
- Chaînes des caractères et RI : 
Cours 5 - 22 octobre 2007 (1h30)
- LSA et Recherche d'Information : 
Cours 6 - 5 novembre 2007 (1h30)
- Analyseur syntaxique Sygmart (cours de Jacques Chauché)
| TP de Fouille de Textes |
TP1 : Etiqueteur de Brill (une séance)
Enoncé du TP :
Ressources nécessaires pour le TP :
- Etiqueteur d'Eric Brill en anglais : brill.zip (616Ko)
- Liste des étiquettes : étiquettes en anglais et en français
TP2 : Extraction de la terminologie (trois séances)
Enoncé du TP : 
Ressources nécessaires pour le TP :
- Corpus normalisé à partir duquel la terminologie devra être extraite : corpusNormalise.txt (28Ko)
TP noté à remettre au plus tard le vendredi 26 octobre 2007 à 18h (cf modalités décrites dans l'énoncé)
| Projet |
Projet (à faire en binômes) : Classification de texes
Les soutenances du projet sont prévues la semaine du 17 décembre 2007.