Equipe Fouille de Données








Mots clés : bases de données, fouille de données ("data mining"), entrepôts de données, logique floue, systèmes d'informations, Web sémantique, ontologies, technologies XML, intégration de données.









1 - Composition de l'équipe

Responsable : Maguelonne Teisseire, Maître de Conférences, Polytech'Montpellier.

Permanents Associé : Doctorants : Anciens Doctorants : F. Masseglia (CR INRIA Sophia), P-A. Laur (MdC Université Antilles-Guyane), S. Jaillet (Ingénieur de Recherche)

2 - Activités de Recherche

Les activités de l'équipe sont principalement orientés vers la recherche de motifs séquentiels. Les motifs séquentiels ont été étudiés depuis plusieurs années. Ils permettent de découvrir des règles du type : les clients qui achètent un téléviseur achètent quelque temps plus tard un magnétoscope numérique et un lecteur DVD.

Fouille de données multidimensionnelles.

La prise en compte de plusieurs dimensions d'analyse (et éventuellement de hiérarchies sur ces dimensions) est une problématique dicile actuellement très dynamique. Si les outils de navigation OLAP au sein de bases de données multidimensionnelles sont maintenant bien étudiés, les outils de fouille de données restent quant à eux encore dicilement utilisables pour les utilisateurs, face aux problèmes liés d'une part au traitement de très gros volumes de données et d'autre part au fait que les utilisateurs finaux (les décideurs) doivent comprendre les connaissances extraites et doivent pouvoir les utiliser le plus rapidement possible. Dans ce contexte, nos travaux se focalisent principalement sur la recherche de motifs séquentiels multidimensionnels (dans le cadre de la thèse de Marc Plantevit) et la recherche de blocs homogènes afin de faciliter la visualisation.

Fouille de données textuelles.

La classification de textes est un domaine très actif trouvant de très nombreuses applications, notamment dans le cadre du Web Content Mining. Il s'agit de construire, à partir d'une très grosse base de données de textes, des modèles de catégorisation permettant de classer de manière pertinente tout nouveau texte soumis au système. Les travaux que je mène dans ce contexte au sein de l des méthodes de construction de modèles de catégorisation fondés sur des règles issues de motifs séquentiels (travaux de thèse de Simon Jaillet).

Découverte de motifs séquentiels flous.

De nombreuses bases de données sont inexploitables par les algorithmes existants de découverte de motifs séquentiels puisqu'elles contiennent des données numériques. Dans ce contexte, nos travaux visent à définir de manière formelle les concepts associés aux motifs séquentiels flous et à les mettre en oeuvre par une implémentation efficace (thèse de Céline Fiot).

Fouille de données arborescentes.

Le volume des documents disponibles sur internet croît de manière très importante. Or l'interrogation des bases de données de documents (souvent définis de manière arborescente au format XML) nécessite la définition d'un schéma médiateur. Pour permettre la définition automatique de ce schéma médiateur, nos travaux sont orientés vers la recherche de sous-arbres fréquents dans les données (travaux de thèse de Federico Del Razo Lopez).

Fouille de données en flots.

Les données sous la forme de flots se sont récemment révélées être une source de sujets de recherche majeurs. Ce phénomène de production, qui concerne un nombre grandissant de sources de données, se retrouve sous le nom de « flots de données » (ou « data streams »). Les flots de données peuvent être issus des données d'opérateurs téléphoniques, de la surveillance de patients, de réseaux de capteurs, des journaux d'usage de certains sites Web très fréquentés, du trafic IP, des transactions financières, des enchères en ligne, de procédés industriels ou encore du trafic routier urbain, etc. Les flots de données nous confrontent à deux défis principaux :
  1. Comment représenter un flot de manière fidèle sans le stocker exhaustivement ?
  2. Comment extraire de la connaissance depuis un flot, sans le bloquer par des opérations coûteuses ?
Dans le cadre de nos travaux, nous nous intéressons à l'extraction de motifs séquentiels à partir de flots de données (thèse de Chedy Raïssi).

3 - Positionnement national et international

Au niveau national

Au niveau international

Relations industrielles