Projet IDC (Ingénierie des Données et des Connaissances) :

Partage de données dans les systèmes distribués à large échelle




Les problèmes de recherche traités dans ce projet demandent souvent de combiner des techniques de bases de données (comme la structuration et l'optimisation), des aspects systèmes répartis (comme le maintien de la cohérence) et des techniques et méthodes d'intelligence artificielle (comme la classification, la modélisation des connaissances).

Mots clés : bases de données, systèmes d'informations, systèmes distribués, Web sémantique, ontologies, XML,  intégration de données, environnements collaboratifs, systèmes mobiles, systèmes P2P.


1 - Composition de l'équipe

Responsable : Zohra Bellahsène, Professeur. 

Permanents Collaborateur
Associés :
Doctorants :

2 - Contexte et motivation

L’objectif du projet est d'étudier les principaux mécanismes et modèles permettant de concevoir et de mettre en oeuvre l'intégration de données et de connaissances dans les grands systèmes distribués. Nous étudierons également les problèmes posés par les accès concurrents aux données réparties et partagées. Le principe de médiation consiste à fournir à un utilisateur un accès uniforme et transparent à la localisation et l'hétérogénéité des données. Le thème de la médiation des données (ou intégration de données) a été étudié par de nombreuses équipes tant au niveau national qu’international. Des prototypes existent. Le défi, aujourd’hui, est l'étude du passage à la très grande échelle des techniques de médiation ainsi que la prise en compte de la mobilité. Les grands systèmes distribués sont caractérisés par un grand nombre de sources d’informations, une hétérogénéité importante et une forte dynamicité. Ils sont généralement divisés en deux classes :
  1. Les systèmes de grilles de données qui peuvent comporter jusqu’à un millier de machines et qui constituent un environnement stable notamment en terme de connexion / déconnexion ;
  2. Les systèmes à grande échelle qui sont basés en général sur des architectures d'égal à égal ("peer to peer") et qui peuvent comporter plusieurs centaines de milliers de PC éventuellement mobiles. Cet environnement est beaucoup plus dynamique que le précédent.
Dans ce cadre, nous comptons nous intéresser aux axes de recherche suivants.


3 - Axes de recherche

3.1 Infrastructures pour le partage de données à grande échelle

Ce sujet consiste précisément à étudier les problèmes d'intégration de données dans le contexte d'un très grand nombre de sources de données inter-connectés par un réseau peer to peer (P2P). Dans ce type de réseau les différents acteurs peuvent jouer aussi bien le rôle de client que de serveur (i.e. source de données). La volatilité de ces sources requière de nouvelles architectures de médiation capable d'opérer en mode dégradé dans l'environnement P2P. Nous comptons nous focaliser sur les points suivants :
  1. Définition d'une architecture fonctionnelle et opérationnelle pour une intégration de données XML à grande échelle. Cette architecture est basée sur le concept de super peer.
  2. Proposition de mécanismes actifs capables de réagir et d'assurer l'évolution du système distribué notamment au niveau des méta données.
  3. Définition et mise en oeuvre d'un service de requêtes pour un tel environnement. Dans notre approche les données sont stockées au niveau des sources mais pour des raisons d'optimisation, des vues matérialisées seront stockées sur certains sites. Nous étudierons donc aussi le problème de sélection de vues à matérialiser dans ce contexte.

3.2 Maintien de la cohérence dans les environnements transactionnels, collaboratifs, mobiles

Ce thème de recherche a pour objectif d'étudier les problèmes posés par les accès concurrents à des données réparties et partagées, et de proposer des méthodes assurant le maintien de la cohérence de ces données. Ces méthodes mettent en jeu des algorithmes de mise à jour qui sont adaptés à la nature des environnements considérés, à savoir : collaboratifs, transactionnels, mobiles. Notre recherche consistera à se placer plus particulièrement dans le cadre des systèmes collaboratifs mobiles et à approfondir les points suivants :
  1. Conception et réalisation de synchroniseurs génériques, adaptables à tous types de données et indépendants de leur structure, capables de réconcilier automatiquement des données dupliquées et partagées.
  2. Approfondissement de l'utilisation des transformées opérationnelles pour faciliter le travail collaboratif dans un groupe.

Collaborateurs extérieurs réguliers (nom, organisme)

-          Equipe de Mark Roantree, Dublin City University, Dublin, ireland

-          Equipe de Peter McBrien, Imperial College, London, UK.

PUBLICATIONS

4 - Positionnement national et international

Au niveau national

Au niveau international

Relations industrielles

Colla


boration avec la société PenBASE : Conception d’un Synchroniseur générique  (2004)


n