SUJET DE STAGE : "Fouille de donnŽes comportementales pour la maintenance ferroviaire"

 

            MOTS CLES : DonnŽes sŽquentielles, Fouille de donnŽes, Extraction de connaissances


Le sujet de ce stage sÕinscrit dans le cadre dÕune collaboration de lÕŽquipe Tatoo avec la fondation Fatronik et plus particulirement est associŽ aux problmes de maintenance ferroviaire o les nombreux capteurs associŽs aux trains permettent dÕobtenir des masses dÕinformations numŽriques de plus en plus volumineuses. La dŽtection de comportements normaux et dÕanomalies devient alors difficile du fait des caractŽristiques des donnŽes manipulŽes : gros volumes en terme de descripteurs, donnŽes historisŽes, donnŽes disponibles sous forme de flot etc.
 
Ces travaux de recherche sÕintgrent dans un cadre plus global de proposition de mŽthodes, basŽes sur l'extraction de motifs sŽquentiels, capables de rŽpondre aux problmes suivants : extraire des profils de comportements typiques voire atypiques, coupler les Žventuelles anomalies ˆ dÕautres bases dÕinformation (mŽtŽo, localisation É) afin dÕen mesurer la pertinence.
 
De faon plus prŽcise, lÕobjectif de ce stage sera de proposer des relations de causalitŽ pertinentes. La recherche de motifs sŽquentiels permet de dŽcouvrir des motifs du type Ç beaucoup de clients ont achetŽ les articles A et B simultanŽment puis les articles A et C simultanŽment puis l'article B. È Si ces motifs permettent de dŽcrire les donnŽes, ils ne contiennent en aucune manire l'idŽe de causalitŽ. Or il para”t primordial, dans le cadre des donnŽes ferroviaires, de conna”tre les relations causales qui lient les occurrences d'items. Il serait ainsi possible de dŽcouvrir les rgles du type : Ç quand les clients achtent les articles A et B simultanŽment puis les articles A et C simultanŽment alors ils achtent ensuite l'article B. È. Il s'agit donc d'Žlargir les dŽfinitions et mŽthodes ŽtudiŽes pour les rgles d'association au contexte temporel.
 
Le travail ˆ rŽaliser est donc axŽ sur les points suivants :
-    Identifier les concepts nŽcessaires et les dŽfinitions associŽes,
-    Mettre en Žvidence les mesures pertinentes pour Žvaluer la notion de causalitŽ,
-    DŽfinir les algorithmes associŽes capables de passer ˆ l'Žchelle face aux gros volumes de donnŽes,
-    Evaluer ces algorithmes sur les donnŽes rŽelles de la fondation Fatronik.
 
RŽfŽrences bibliographiques :
 
¥ R. Agrawal and R. Srikant. Ç Mining Sequential Patterns È. Proc. of the 11th International Conference on Data Engineering, pages 3-14, March 1995.
 
¥ Chang-Hung Lee, Philip S. Yu , and Ming-Syan Chen. Ç Mining Relationship between Triggering and Consequential Events in a Short Transaction Database È. SIAM International Conference on Data Mining (SDM) 2002.  http://www.siam.org/meetings/sdm02/proceedings/sdm02-24.pdf
 
. Edi Winarko, John F. Roddick Ç Discovering Richer Temporal Association Rules from Interval-Based Data È Proc. of the 7th International Conference Data Warehousing and Knowledge Discovery (DaWaK) 2005, Copenhagen, Denmark, August 22-26, 2005 pp. 315-325.