Equipe Fouille de Données
Mots clés : bases de données, fouille de données ("data mining"), entrepôts de données, logique floue,
systèmes d'informations, Web sémantique, ontologies, technologies XML, intégration de données.
1 - Composition de l'équipe
Responsable : Maguelonne Teisseire, Maître de Conférences, Polytech'Montpellier.
Permanents
Associé :
Doctorants :
- Federico Del Razo Lopez
- Céline Fiot
- Marc Plantevit
- Chedy Raïssi
Anciens Doctorants :
F. Masseglia (CR INRIA Sophia), P-A. Laur (MdC Université Antilles-Guyane), S. Jaillet (Ingénieur de Recherche)
2 - Activités de Recherche
Les activités de l'équipe sont principalement orientés vers la recherche de motifs séquentiels.
Les motifs séquentiels ont été étudiés depuis plusieurs
années. Ils permettent de découvrir des règles du type : les clients qui achètent un téléviseur achètent
quelque temps plus tard un magnétoscope numérique et un lecteur DVD.
Fouille de données multidimensionnelles.
La prise en compte de plusieurs dimensions d'analyse
(et éventuellement de hiérarchies sur ces dimensions) est une problématique dicile actuellement très
dynamique. Si les outils de navigation OLAP au sein de bases de données multidimensionnelles sont
maintenant bien étudiés, les outils de fouille de données restent quant à eux encore dicilement utilisables
pour les utilisateurs, face aux problèmes liés d'une part au traitement de très gros volumes de données
et d'autre part au fait que les utilisateurs finaux (les décideurs) doivent comprendre les connaissances
extraites et doivent pouvoir les utiliser le plus rapidement possible. Dans ce contexte, nos travaux se
focalisent principalement sur la recherche de motifs séquentiels multidimensionnels (dans le cadre de la
thèse de Marc Plantevit) et la recherche de blocs homogènes afin de
faciliter la visualisation.
Fouille de données textuelles.
La classification de textes est un domaine très actif trouvant de très
nombreuses applications, notamment dans le cadre du Web Content Mining. Il s'agit de construire, à
partir d'une très grosse base de données de textes, des modèles de catégorisation permettant de classer
de manière pertinente tout nouveau texte soumis au système. Les travaux que je mène dans ce contexte
au sein de l des méthodes de construction de modèles de catégorisation fondés sur des règles issues de
motifs séquentiels (travaux de thèse de Simon Jaillet).
Découverte de motifs séquentiels flous.
De nombreuses
bases de données sont inexploitables par les algorithmes existants de découverte
de motifs séquentiels puisqu'elles contiennent des données
numériques. Dans ce contexte, nos travaux visent à définir de manière formelle les concepts associés aux
motifs séquentiels flous et à les mettre en oeuvre par une implémentation efficace (thèse de Céline Fiot).
Fouille de données arborescentes.
Le volume des documents disponibles sur internet croît de manière
très importante. Or l'interrogation des bases de données de documents (souvent définis de manière
arborescente au format XML) nécessite la définition d'un schéma médiateur. Pour permettre la définition
automatique de ce schéma médiateur, nos travaux sont orientés vers la recherche de sous-arbres fréquents
dans les données (travaux de thèse de Federico Del Razo Lopez).
Fouille de données en flots.
Les données sous la forme de flots se sont récemment révélées
être une source de sujets de recherche majeurs.
Ce phénomène de production, qui concerne un nombre grandissant de sources de données,
se retrouve sous le nom de « flots de données » (ou « data streams »). Les flots de données peuvent être issus
des données d'opérateurs téléphoniques, de la surveillance de patients, de réseaux de capteurs, des journaux d'usage de
certains sites Web très fréquentés, du trafic IP, des transactions financières, des enchères en ligne,
de procédés industriels ou encore du trafic routier urbain, etc.
Les flots de données nous confrontent à deux défis principaux :
- Comment représenter un flot de manière fidèle sans le stocker exhaustivement ?
- Comment extraire de la connaissance depuis un flot, sans le bloquer par des opérations coûteuses ?
Dans le cadre de nos travaux, nous nous intéressons à l'extraction de motifs séquentiels à partir de flots de données
(thèse de Chedy Raïssi).
3 - Positionnement national et international
Au niveau national
- GDR I3
- Action Spécifique STIC GaFoDonnées (Fouille de Bases de Données)
- Groupe Fouille de données complexes
- Collaboration avec d'autres équipes :
- Avec l'équipe TALN : Ce projet consiste à définir une nouvelle approche d'extraction de connaissances
dans de grandes bases de documents basée sur les vecteurs conceptuels.
Au niveau international
- Projet STIC-ASIA EXPEDO (Pakistan, Malaisie, Indonésie)
Relations industrielles
- BPSOLAR : Utilisation des motifs séquentiels pour détection de comportements atypiques.
- Makkina News (en collaboration avec l'équipe TALN) : Classification automatique d'articles de presse.
- Kireli (en collaboration avec l'équipe TALN) : Analyse de la satisfaction des usagers.
- SQLI (projet SPRINTT région) : Classification automatique de messages électroniques.
- INPI (en collaboration avec le laboratoire PRAXILING) : Extraction de connaissances à partir des noms de marques déposés.
- AIRSTIST (Incubation LRI) : détection de profils de consommateurs.