Sujet : Extraction de comportements atypiques dans des bases de données multidimensionnelles

 

Encadrants : Marc Plantevit, Anne Laurent, Maguelonne Teisseire

 

Lieu : LIRMM

 

 

La découverte de connaissances revêt plusieurs facettes. On peut par exemple citer la détection de corrélations, la classification, la description de classe ou encore la détection d'exceptions et de comportements atypiques. Si les 3 premières catégories visent à décrire et/ou prédire des comportements liés à un large pourcentage d'objets de la base de données, la détection d'exceptions se focalise sur une petite minorité d'objets. 
Or cette détection est primordiale pour beaucoup d'applications, où identifier une exception permet de découvrir une connaissance inattendue.
Par exemple, l'analyse des statistiques des joueurs de la ligue nord américaine de Hockey permet d'extraire des connaissances inattendues de la forme :
« un joueur peu médiatique qui a un salaire très bas a le meilleur pourcentage de réussite aux tirs en supériorité numérique ».

Dans ce contexte, il existe de nombreux travaux dans un contexte  multi-attributs. Il existe aussi des travaux sur des séquences de données contenant une seule dimension (séquence de protéines, ADN, etc.). Le but de ce stage est d'étendre ces premiers travaux afin de réaliser une approche d'extraction de comportements atypiques dans un contexte de séquences de données multi-attributs.


•    Marc Plantevit, Yeow Wei Choong, Anne Laurent, Dominique Laurent, and Maguelonne Teisseire « M2SP: Mining sequential patterns among several dimensions » In Alipio Jorge, Luis Torgo, Pavel Brazdil, Rui Camacho, and Joao Gama, editors, PKDD, volume 3721 of  Lecture Notes in Computer Science, pages 205--216. Springer, 2005.

•    Pei Sun, Sanjay Chawla and  Bavani Arunasalam « Mining for Outliers in Sequential Databases » In Proceedings of the 2006 SIAM Conference on Data Mining SDM'06.

•    Einoshin Suzuki « Scheduled Discovery of Exception Rules » In Discovery Science (1999) pp 184-195.


•    Edwin Knorr, Raymond T. Ng and Vladimir Tucakov « Distance-based outliers: algorithm and applications » In VLDB Journal, Vol 8, num 3-4, pp 237-253, 2000.


•    Stephen D. Bay and Mark Schwabacher « Mining Distance-Based Outliers in Near Linear Time with Randomization and a simple Pruning Rule » In SIGKDD 2003.