Master Recherche - UMIN 350 - Fouille de données avancée

Saison 2007 - 2008

Resp. :  Mathieu Roche et Maguelonne Teisseire



Les supports des cours seront mis en ligne au fur et à mesure des séances

Séance 1  (20 sept 07) : Le processus de KDD, les Règles d'association et Motifs séquentiels (pdf1, pdf2)

Séance 2  (27 sept 07) :  Fouille de données approximative (pdf) - Fouille de texte (1/2) (pdf)

Séance 3  (4 oct 07) :  Fouille de texte (2/2) (pdf1, pdf2)

Séance 4  (11 oct 07) : Le processus de classification de documents : Illustration

Séance 5  (18 oct 07) : Motifs séquentiels et weka - Fouille d’arbres (pdf) (Article en anglais lié au cours pdf)

Séance 6  (25 oct 07) : Flots de données - Motifs multidimentionnels




Liste des sujets de stage des modules
Fouille de Données Avancées et Systèmes d'Informations Décisionnels



Ontologies floues et fouille de données
Encadrant(s)  : Sandra Bringay et A. Laurent
Equipe : LIRMM-TATOO

Fouille de flots de données multidimensionnelles
Encadrant(s)  : Pascal Poncelet, Anne Laurent, Marc Plantevit
Equipes : EMA-KDD, LIRMM-TATOO

Stream Mining
Encadrant(s)  : Pascal Poncelet, Chedy Raissi
Equipe : EMA-KDD

Ajout de connaissances linguistiques pour des tâches de classification fondées sur les motifs séquentiels
Encadrant(s)  : Mathieu Roche, Pascal Poncelet, Maguelonne Teisseire
Equipes : LIRMM-(TAL,TATOO) EMA-KDD

Fouille de données comportementales pour la maintenance ferroviaire

Encadrant(s)  : Pascal Poncelet, Maguelonne Teisseire
Equipes : EMA-KDD, LIRMM-TATOO

Classification automatique de documents  hétérogènes à faible contenu textuel
Encadrant(s)  : Mathieu Roche, Nicolas Béchet, Vincent Poulain d'Andecy
Equipes : LIRMM-TAL
 




Examen prévu le 2 novembre à 10h

(Pour info - les annales 2006)


Pour l'examen qui aura lieu le vendredi 2 novembre à 10h, il vous est demandé de lire attentivement les articles avec une *


* (1) "Locating Complex Named Entities in Web Text"
Doug Downey, Matthew Broadhead, Oren Etzioni In proceedings of IJCAI'07, p2733-2739

http://www.ijcai.org/papers07/Papers/IJCAI07-439.pdf

Des documents complémentaires :
    - article :
http://citeseer.ist.psu.edu/daille94study.html
  
  - page web de module ECD : http://www.lirmm.fr/~mroche/Enseignements/ECD_M2/


* (2) "Sequential PAttern Mining Using Bitmaps"
Jay Ayres, Johannes Gehrke, Tomi Yiu, and Jason Flannick
In Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - Edmonton, Alberta, Canada, July 2002
disponible à (ainsi que d'autres éléments complémentaires) :
http://himalaya-tools.sourceforge.net/Spam/#publications

* (3) "PrefixSpan: Mining Sequential Patterns Efficiently by PrefixProjected Pattern Growth"
J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu In. Proc. 2001 Int. Conf. Data Engineering (ICDE'01), pages 215-224, Heidelberg, Germany, April 2001
disponible à  :
http://citeseer.ist.psu.edu/pei01prefixspan.html

A l'URL suivante, les sources + des démos : http://illimine.cs.uiuc.edu/


ATTENTION : Pour les articles (2) et (3), il vous est demandé d'étudier tout particulièrement les limitations de ces approches par rapport aux différents propositions vues en cours (multidimensionnel, flou, flot ...)