SUJET DE STAGE : "Fouille
de donnŽes comportementales pour la maintenance ferroviaire"
MOTS
CLES : DonnŽes sŽquentielles, Fouille
de donnŽes,
Extraction de connaissances
Le
sujet de
ce stage sÕinscrit dans le cadre dÕune collaboration de lÕŽquipe Tatoo
avec la
fondation Fatronik et plus particulirement est associŽ aux problmes
de
maintenance ferroviaire o les nombreux capteurs associŽs aux trains
permettent
dÕobtenir des masses dÕinformations numŽriques de plus en plus
volumineuses. La
dŽtection de comportements normaux et dÕanomalies devient alors
difficile du
fait des caractŽristiques des donnŽes manipulŽes : gros volumes en
terme
de descripteurs, donnŽes historisŽes, donnŽes disponibles sous forme de
flot
etc.
Ces
travaux
de recherche sÕintgrent dans un cadre plus global de proposition de
mŽthodes,
basŽes sur l'extraction de motifs sŽquentiels, capables de rŽpondre aux
problmes suivants : extraire des profils de comportements
typiques voire
atypiques, coupler les Žventuelles anomalies ˆ dÕautres bases
dÕinformation
(mŽtŽo, localisation É) afin dÕen mesurer la pertinence.
De
faon plus
prŽcise, lÕobjectif de ce stage sera de proposer des relations de
causalitŽ
pertinentes. La recherche de motifs sŽquentiels permet de dŽcouvrir des
motifs
du type Ç beaucoup de clients ont achetŽ les articles A et B
simultanŽment puis
les articles A et C simultanŽment puis l'article B. È Si ces motifs
permettent
de dŽcrire les donnŽes, ils ne contiennent en aucune manire l'idŽe de
causalitŽ. Or il para”t primordial, dans le cadre des donnŽes
ferroviaires, de
conna”tre les relations causales qui lient les occurrences d'items. Il
serait
ainsi possible de dŽcouvrir les rgles du type : Ç quand les clients
achtent
les articles A et B simultanŽment puis les articles A et C
simultanŽment alors
ils achtent
ensuite l'article B. È. Il s'agit donc d'Žlargir les dŽfinitions et
mŽthodes
ŽtudiŽes pour les rgles d'association au contexte temporel.
Le
travail ˆ
rŽaliser est donc axŽ sur les points suivants :
- Identifier les concepts
nŽcessaires et les dŽfinitions associŽes,
- Mettre en Žvidence les
mesures pertinentes pour Žvaluer la notion de causalitŽ,
- DŽfinir les algorithmes
associŽes capables de passer ˆ l'Žchelle face aux gros volumes de
donnŽes,
- Evaluer ces algorithmes sur
les donnŽes rŽelles de la fondation Fatronik.
RŽfŽrences
bibliographiques :
¥
R. Agrawal
and R. Srikant. Ç Mining Sequential Patterns È. Proc. of the 11th
International
Conference on Data Engineering, pages 3-14, March 1995.
¥
Chang-Hung
Lee, Philip S. Yu , and Ming-Syan Chen. Ç Mining Relationship between
Triggering and Consequential Events in a Short Transaction Database È.
SIAM
International Conference on Data Mining (SDM) 2002.
http://www.siam.org/meetings/sdm02/proceedings/sdm02-24.pdf
.
Edi
Winarko, John F. Roddick Ç Discovering Richer Temporal Association
Rules
from Interval-Based Data È Proc. of the 7th International
Conference Data
Warehousing and Knowledge Discovery (DaWaK) 2005, Copenhagen, Denmark,
August
22-26, 2005 pp. 315-325.