Les grands catalogues documentaires sont en train de passer de l’ère de la gestion de bases de métadonnées dans des formats spécifiques issus de la communauté des Sciences de l’Information et des Bibliothèques (SIB) à l’ère du Web dans les langages standards du web sémantique (RDF/S, OWL). Cette évolution, qui présente de nombreux avantages (meilleure exposition des fonds documentaire, augmentation des possibilités d’échange de données, création de nouveaux services de recherche/d’exploitation des fonds), pose des problèmes importants concernant la qualité des bases documentaires.

Ce projet se propose d’élaborer des mécanismes permettant de :

  • qualifier le niveau de qualité d’une base documentaire existante ;
  • maintenir un niveau de qualité donné en contrôlant les opérations de mise à jour de ces bases ;
  • améliorer le niveau de qualité d’une base ;
  • disposer de méthodes génériques d’exploitation de ces bases dépendants de leur niveau de qualité (par exemple pour la recherche de documents ou l’interconnexion de bases).

Grâce à la représentation des données dans les langages du web sémantique une approche « représentation des connaissances » de ces problèmes est possible. Cette approche permettra, d’une part, de donner une sémantique logique à la notion de qualité et, d’autre part, d’utiliser des mécanismes de raisonnement pour traiter les divers problèmes. Cette approche repose sur la formalisation des connaissances présentes dans les catalogues documentaires, l’élaboration d’un modèle de qualité pour la problématique de l’identification des entités individuelles (ou entités nommées) dans une base de connaissances, la définition d’un modèle original de confiance adapté à la réconciliation et à la fusion d’informations provenant de différentes sources, et la découverte de caractéristiques d’identification d’entités et leur exploitation selon différentes approches (logique, numérique, probabiliste, …).

Une large part du projet est dévolue à l’évaluation de l’approche proposée par des expérimentations menées sur des corpus de tests et par le développement de démonstrateurs adaptés au contexte métier de deux gestionnaires de bases documentaires.

Le consortium regroupe cinq partenaires complémentaires : deux acteurs nationaux majeurs des systèmes documentaires et trois équipes de chercheurs en informatique. L’Agence Bibliographique de l’Enseignement Supérieur (ABES) et l’Institut National de l’Audiovisuel (Ina) sont détenteurs et gèrent de très grandes bases documentaires, ils sont très fortement investis, au plan national et au plan international, dans l’exposition, la standardisation, l’interconnexion et la valorisation de leurs métadonnées. Les équipes du LIG, du LIRMM et du LRI impliquées dans ce projet, possèdent de leur côté une expertise reconnue en bases de données, représentation des connaissances et web sémantique. De plus, de multiples et anciens liens existent entre les partenaires de ce projet. Les compétences des partenaires et les liens scientifiques tissés entre eux dans le cadre de projets communs sont très importants pour le succès de ce projet pluridisciplinaire qui concerne aussi bien les Sciences de l’Information et des Bibliothèques que l’Informatique, et qui devrait avoir des retombées, non seulement dans le domaine des bases documentaires mais aussi dans le Web des données (« Linked Data »).

Les objectifs scientifiques du projet sont de :

  • développer un cadre logique pour qualifier la qualité d’une base de connaissances documentaires vis-à-vis de l’identification des entités individuelles et des liens entre entités individuelles ;
  • proposer des principes/méthodes/outils pour passer d’un certain niveau de qualité à un meilleur niveau. Ces méthodes s’appuieront sur les approches logiques et numériques utilisées en réconciliation et fusion de références qui, d’une part, seront adaptées aux nouvelles problématiques engendrées par ces bases de connaissances documentaires et, d’autre part, seront étendues pour permettre la prise en compte de connaissances incertaines.

Les verrous à attaquer sont triples :

  1. La définition d’un modèle de qualité : nous aborderons les différents problèmes en utilisant un langage de représentation de connaissances permettant d'exprimer des connaissances « fines », sous la forme de contraintes et de règles (par exemple, pour éliminer les doublons ou pour réaliser des liages) et de faire des raisonnements correspondant à ceux des documentalistes. Les cadres classiques ayant des modèles en logique du premier ordre doivent être étendus pour prendre en compte les spécificités de ces problèmes en particulier la notion de "surrogate", certaines constantes du langage formel ne devant avoir qu'une interprétation, ainsi que l’incertitude et l’incomplétude intrinsèques à ce type de données. Nous nous appuierons en particulier sur les « standard names » introduits par Levesque et Lakemeyer (Levesque, et al., 2000).
  2. La problématique cœur du liage : au cœur des problèmes de qualité on trouve la problématique du liage : étant donnée une entité individuelle importante au sein d’une notice, il s’agit de retrouver dans un référentiel l’autorité qui lui correspond. Cette problématique proche de celle de la réconciliation de références, s’en distingue par le fait qu’elle ne s’applique pas sur des données structurées mais sur des données dont la sémantique est contrôlée par une ontologie. Ainsi les comparaisons des données élémentaires ne se font pas attribut par attribut de même nature mais nécessite la mobilisation de connaissances codées dans les ontologies pour identifier les données élémentaires comparables. De plus, les liens que l’on cherche à établir vont des notices documentaires qui contiennent des connaissances contextuelles sur les autorités - par exemple, la description d’un document, sur un sujet particulier, publié à une certaine époque par l’autorité personne que l’on cherche à lier - vers les notices d’autorités qui contiennent des connaissances (censées être) indépendantes de tout contexte sur les autorités. Face à cette spécificité des bases documentaires, il est nécessaire de fonder le liage sur l’exploitation des connaissances contextuelles présentes dans les notices documentaires liées à une entité.
  3. La représentation explicite et le calcul de la confiance en la qualité des liages : à cause de l’incomplétude et/ou de l’incertitude des données, de nombreux liages, tout en étant probables, ne sont pas certains. Associer des indices de confiance aux liages détectés est essentiel pour aider les experts à valider certaines décisions de réconciliations, mais aussi pour en tirer des mesures de qualité sur les bases de connaissances ainsi enrichies et sur les réponses obtenues quand on les interroge. Le verrou principal sera de définir une sémantique rigoureuse aux indices de confiance et à leur propagation, qui soit interprétable par les humains et calculable facilement par la machine. Le défi sera de combiner la logique et les probabilités pour calculer et inférer des indices de confiance en intégrant, dans un cadre uniforme et fondé mathématiquement, des informations sur la provenance des données, des avis d’experts, des calculs de similarités sur des valeurs d’attributs, des contraintes sur le domaine et des règles de réconciliation et d’enrichissement.
logo-anr