Les problèmes de recherche traités dans
ce projet
demandent souvent de combiner des techniques de bases de données
(comme la structuration et l'optimisation), des aspects systèmes
répartis (comme le maintien de la cohérence) et des
techniques et méthodes d'intelligence artificielle (comme la
classification, la modélisation des connaissances).
Mots clés : bases de données, systèmes
d'informations, systèmes distribués, Web
sémantique, ontologies, XML,
intégration de données,
environnements collaboratifs, systèmes mobiles, systèmes
P2P.
1 - Composition de l'équipe
Responsable : Zohra
Bellahsène, Professeur.
Permanents
Collaborateur
Associés :
Doctorants :
- Fabien Duchateau, bourse MENRT
- Hoa Ngo Duy, bourse ANR DataRing
- Imène Mami, bourse MENRT
- Fadi Draidi, bourse MEA
2 - Contexte et motivation
L’objectif du projet est d'étudier les principaux
mécanismes et modèles permettant de concevoir et de
mettre en oeuvre l'intégration de données et de
connaissances dans les grands systèmes distribués. Nous
étudierons également les problèmes posés
par les accès concurrents aux données réparties et
partagées.
Le principe de médiation consiste à fournir à un
utilisateur un accès uniforme et transparent à la
localisation et l'hétérogénéité des
données. Le thème de la médiation des
données (ou intégration de données) a
été étudié par de nombreuses équipes
tant au niveau national qu’international. Des prototypes existent. Le
défi, aujourd’hui, est l'étude du passage à la
très grande échelle des techniques de médiation
ainsi que la prise en compte de la mobilité. Les grands
systèmes distribués sont caractérisés par
un grand nombre de sources d’informations, une
hétérogénéité importante et une
forte dynamicité. Ils sont généralement
divisés en deux classes :
- Les systèmes de grilles de données qui peuvent
comporter jusqu’à un millier de machines et qui constituent un
environnement stable notamment en terme de connexion /
déconnexion ;
- Les systèmes à grande échelle qui sont
basés en général sur des architectures
d'égal à égal ("peer to peer") et qui peuvent
comporter plusieurs centaines de milliers de PC éventuellement
mobiles. Cet environnement est beaucoup plus dynamique que le
précédent.
Dans ce cadre, nous comptons nous intéresser aux axes de
recherche suivants.
3 - Axes de recherche
3.1 Infrastructures pour le partage de données à
grande échelle
Ce sujet consiste précisément à étudier les
problèmes d'intégration de données dans le
contexte d'un très grand nombre de sources de données
inter-connectés par un réseau peer to peer (P2P). Dans ce
type de réseau les différents acteurs peuvent jouer aussi
bien le rôle de client que de serveur (i.e. source de
données). La volatilité de ces sources requière de
nouvelles architectures de médiation capable d'opérer en
mode dégradé dans l'environnement P2P.
Nous comptons nous focaliser sur les points suivants :
- Définition d'une architecture fonctionnelle et
opérationnelle pour une intégration de données XML
à grande échelle. Cette architecture est basée sur
le concept de super peer.
- Proposition de mécanismes actifs capables de réagir
et d'assurer l'évolution du système distribué
notamment au niveau des méta données.
- Définition et mise en oeuvre d'un service de
requêtes pour un tel environnement. Dans notre approche les
données sont stockées au niveau des sources mais pour des
raisons d'optimisation, des vues matérialisées seront
stockées sur certains sites. Nous étudierons donc aussi
le problème de sélection de vues à
matérialiser dans ce contexte.
3.2 Maintien de la cohérence dans les environnements
transactionnels, collaboratifs, mobiles
Ce thème de recherche a pour objectif d'étudier les
problèmes posés par les accès concurrents à
des données réparties et partagées, et de proposer
des méthodes assurant le maintien de la cohérence de ces
données. Ces méthodes mettent en jeu des algorithmes de
mise à jour qui sont adaptés à la nature des
environnements considérés, à savoir :
collaboratifs, transactionnels, mobiles. Notre recherche consistera
à se placer plus particulièrement dans le cadre des
systèmes collaboratifs mobiles et à approfondir les
points suivants :
- Conception et réalisation de synchroniseurs
génériques, adaptables à tous types de
données et indépendants de leur structure, capables de
réconcilier automatiquement des données dupliquées
et partagées.
- Approfondissement de l'utilisation des transformées
opérationnelles pour faciliter le travail collaboratif dans un
groupe.
Collaborateurs extérieurs réguliers (nom, organisme)
-
Equipe
de Mark Roantree, Dublin City University, Dublin, ireland
-
Equipe de Peter McBrien, Imperial
College,
London, UK.
4 - Positionnement national et international
Au niveau national
- Projet ARC INRIA (2006-2007)
RECALL: Replication optimiste
pour l’Edition CoLLaborative massive sur réseau P2P
- Projet ANR ARA masse de données
(2005-2008) FORUM : Système de médiation
basé sur la sémantique pour des applications à
large échelle.
- Groupe de travail GDR I3 Services
Web
Au niveau international
- Collaborations académiques :
- Collaboration avec Mark Roantree, Projet PICS, XPeer :
Intégration et optimisation de données XML dans
les environnements à grande échelle.
(financé par le CNRS et Embark Ireland).
- Ela
Hunt, ETH Zurich,
sur l'intégration de données
- Collaboration avec Peter McBrien, Imperial College de Londres
(UK) sur l'intégration de données.
- Laurent Mignet, Université de Toronto, (Canada), sur les
architectures de médiation dans un environnement P2P.
- Collaboration avec R. Guerraoui (Ecole Polytechnique
Fédérale de Lausanne) sur le thème des
Transformées Opérationnelles dans le cadre du projet
"Mobilité" (financé par le CNRS).
-
- Informelles :
- Michel Léonard, Université de Genève
- Rainer
Unland, University of Duisburg-EssenEssen
- Michael Rys, Microsoft research (USA),
- Akmal B. Chaudhri, IBM, London.
- Collaboration avec d'autres équipes :
- Avec l'équipe TALN dans le cadre du projet ANR Forum
Relations industrielles
-
Projet avec la société
Aquafadas iDive : Synchronisation de copies multiples et
interrogation de données vidéo distribuées,(LR
Incubation, 2005)
-
Contrat Equipe-Conseil avec la Société TIXEO
: Assistance à l’adaptation des
Transformées
Opérationnelles et de SOCT4 au logiciel collaboratif WORKSPACE 3D
(2003-
2004)
- Collaboration avec la société PenBASE : Conception d’un Synchroniseur générique
(2004)
Colla
boration avec la
société PenBASE : Conception d’un
Synchroniseur générique (2004)