De l’extraction de motifs séquentiels

Depuis 1996, l’équipe Tatoo s’est focalisée sur l’extraction de motifs dans des grandes bases de données. Les premiers travaux (e.g. les approches PSP de 1998 et ISE de 2003 sont citées respectivement plus de 259 et 160 fois sur Google Scholar) ont porté sur l’extraction de motifs séquentiels (i.e. expression de régularités temporelles). Ces travaux se sont poursuivis par la prise en compte de la complexité des données : symboliques vs. numériques, dynamiques, occurrences nombreuses, incomplètes, etc. Dernièrement, nous avons étudiés les questions suivantes : Comment extraire des motifs dans des données disponibles sous la forme de flots ? Comment résumer ces motifs ? Comment trouver une représentation condensée pour les extraire plus efficacement ? Comment trouver les motifs spécifiques à des contextes ?

De nombreuses approches ont été proposées par la communauté fouille pour trouver des représentations condensées minimisant les connaissances extraites et facilitant l’extraction. Dans le contexte des motifs séquentiels, nous avons prouvé qu’il n’était pas possible de trouver de meilleure représentation que les motifs clos. Ce résultat a conclue les travaux de la communauté sur la recherche de représentation condensée et a donné lieu à un Best Paper à la conférence ECML/PKDD. Dans le contexte des flots de données, il est indispensable d’extraire rapidement les motifs. Nous avons ainsi proposé une nouvelle approche d’extraction de motifs à l’aide de technique d’échantillonnage (Thèse de Chedy Raïssy). En complément, nous avons résumé les motifs au cours du temps à l’aide de hiérarchies. Cette approche, réalisée dans le cadre du projet d’ANR MIDAS (Thèse de Yoann Pitarch), offre la possibilité pour les utilisateurs d’interroger le passé d’un flot de données avec une approximation suffisante pour de multiples analyses.

Le choix d’une dimension d’analyse est souvent difficile pour l’utilisateur. Aussi, nous avons défini un nouveau type de motifs, appelés motifs multidimensionnels (Thèse de Marc Plantevit), qui intègrent différentes dimensions pour offrir au décideur de nouvelles connaissances. Outre les dimensions, le contexte dans lequel les données interviennent est souvent important pour le décideur. Nous avons ainsi proposé un autre type de motifs, contextuels, qui sont représentatifs des différents contextes rencontrés. Utilisés dans le cadre d’une application réelle ferroviaire par exemple, cette approche a permis d’identifier des motifs spécifiques et d’améliorer les opérations de maintenances des trains (Thèse de Julien Rabatel) (article sélectionné comme Best Paper pour apparaître comme chapitre dans Advances in Knowledge Discovery and Management).

Les motifs précédents correspondent à des motifs fréquemment présents dans une base. Or, il s’avère que le décideur peut également être intéressé par ce qui ne l’est pas. Via les motifs séquentiels inattendus (Thèse Hayuan Li), notre objectif a été de rechercher les motifs qui ne respectent pas les croyances généralement connues sur les donnée.

Dernière mise à jour le 01/12/2014