Stage de Master Recherche Informatique

 

« Mais qui est mon Jean Dupont ? »

Contribution au problème de l’identification d’individus à partir de descriptions sémantiques.

Ce sujet est associé à une proposition de thèse pour septembre 2010. Il s’inscrit dans le cadre d’une collaboration avec l’ABES (Agence des bibliothèques de l’enseignement supérieur), basée à Montpellier, cf. site de l’ABES : http://www.abes.fr.

L’ABES gère les bases bibliographiques de l’enseignement supérieur (bibliothèques universitaires, thèses, …). Chaque documentaliste, lorsqu’il saisit une nouvelle notice bibliographique (qui décrit le titre, les auteurs, le sujet etc… d’un document) doit vérifier si l’auteur, l’œuvre, et autres entités référencées dans la notice, existent déjà dans la base.

Pour cela, il fait une recherche par mot-clé dans la base. Pour les auteurs, par exemple, un simple nom ne suffit pas à les identifier de manière précise. Par ailleurs, un auteur peut avoir été identifié précédemment sous un nom différent pour diverses raisons (publication sous un « pseudo », mariage, faute de frappe, …)

Le documentaliste doit donc sélectionner parmi les références retournées par la requête, celle qui correspond à l’entité qu’il veut référencer. Pour cela, il explore les descriptions des entités (par exemple pour les personnes : titre, nationalité, dates de naissance/mort,…) et les listes de documents précédemment attachés à cette entité.

En s’appuyant sur la description sémantique des entités d’une part et sur le réseau de relations entité/documents d’autre part, on peut chercher ce qui différencie chaque entité de toutes les autres entités de même nom.

Le but du stage est d’imaginer les grandes lignes d’un outil d’aide à l’identification des références existantes les plus pertinentes par rapport à la notice bibliographique en cours de saisie.

Plus précisément le stagiaire devra effectuer :

-    Une étude bibliographique et comparaison des techniques proposées dans la littérature (syntaxiques ou sémantiques)

-    Une première formalisation du problème posé s’appuyant sur les descriptions sémantiques des entités.

-    Une proposition de scénarios d’application en collaboration avec l’ABES

Quelques références biblio sur le sujet :

Quelques liens vers des projets en lien avec ce sujet :

 

 

Sujet de thèse en liaison avec ce stage de recherche :

TITRE: Identification d’entités dans le web sémantique

 

ENCADRANTS: Michel Leclère et Marie-Laure Mugnier

 

RESUME:

 

L’une des problématiques majeures du web sémantique consiste à interconnecter les informations provenant de différentes sources en exploitant les connaissances qui leur sont associées.

 

Citons notamment l’initiative « linked data », qui vise à promouvoir la mise à disposition et l’interconnexion des données sur le web afin de favoriser l’émergence d’un web de données à côté du web de documents. Les formats et ontologies développées pour le web sémantique permettent cette ouverture des données sur le web.

Cependant pour assurer une réelle interconnexion des diverses sources de données il est nécessaire de ne pas dupliquer les références d’entités. Le problème qui se pose alors est : existe-t-il déjà une référence pour mon entité ? Si oui quelle est-elle ? Si non, comment puis-je décrire ma nouvelle référence créée de façon à ce qu’elle se distingue des autres ? Un problème similaire est le suivant : n’y-a-t-il pas des références différentes qui désignent en fait la même entité, et qu’il faudrait « regrouper » sous une seule référence ?

Pour résoudre ces problèmes, on peut s’appuyer sur la description sémantique des entités. Pour distinguer des entités qui ont le même « nom », on peut chercher ce qui différencie chacune de toutes les autres entités de même nom.

L’ABES (Agence des bibliothèques de l’enseignement supérieur), basée à Montpellier, dispose de données permettant de bâtir de tels référentiels dans le domaine documentaire : référentiel d’œuvres, d’auteurs, de collectivités…

L’objectif de ce travail est de définir un cadre formel pour ces problèmes de référencement des données puis de proposer des solutions à ces problèmes. Les données et applications de l’ABES fourniront un cadre propice à l’expérimentation et l’évaluation des solutions proposées.