Stage de Master
Recherche Informatique
« Mais
qui est mon Jean Dupont ? »
Contribution
au problème de l’identification d’individus à partir de descriptions
sémantiques.
Ce sujet est associé à une proposition de thèse pour septembre 2010.
Il s’inscrit dans le cadre d’une collaboration avec l’ABES (Agence des
bibliothèques de l’enseignement supérieur), basée à Montpellier, cf. site de
l’ABES : http://www.abes.fr.
L’ABES gère les bases bibliographiques de l’enseignement supérieur
(bibliothèques universitaires, thèses, …). Chaque documentaliste, lorsqu’il
saisit une nouvelle notice bibliographique (qui décrit le titre, les auteurs,
le sujet etc… d’un document) doit vérifier si l’auteur, l’œuvre, et autres
entités référencées dans la notice, existent déjà dans la base.
Pour cela, il fait une recherche par mot-clé dans la base. Pour les
auteurs, par exemple, un simple nom ne suffit pas à les identifier de manière
précise. Par ailleurs, un auteur peut avoir été identifié précédemment sous un
nom différent pour diverses raisons (publication sous un « pseudo »,
mariage, faute de frappe, …)
Le documentaliste doit donc sélectionner parmi les références
retournées par la requête, celle qui correspond à l’entité qu’il veut
référencer. Pour cela, il explore les descriptions des entités (par exemple
pour les personnes : titre, nationalité, dates de naissance/mort,…) et les
listes de documents précédemment attachés à cette entité.
En s’appuyant sur la description sémantique des entités d’une part et
sur le réseau de relations entité/documents d’autre part, on peut chercher ce
qui différencie chaque entité de toutes les autres entités de même nom.
Le but du stage est d’imaginer les grandes lignes d’un outil d’aide à
l’identification des références existantes les plus pertinentes par rapport à
la notice bibliographique en cours de saisie.
Plus précisément le stagiaire devra effectuer :
- Une étude
bibliographique et comparaison des techniques proposées dans la littérature (syntaxiques
ou sémantiques)
- Une première
formalisation du problème posé s’appuyant sur les descriptions sémantiques des
entités.
- Une proposition
de scénarios d’application en collaboration avec l’ABES
Quelques références biblio sur le sujet :
Quelques liens vers des projets en lien avec ce sujet :
Sujet de thèse
en liaison avec ce stage de recherche :
TITRE: Identification d’entités dans le web sémantique
ENCADRANTS: Michel Leclère et Marie-Laure Mugnier
RESUME:
L’une des problématiques majeures du web sémantique consiste à interconnecter les informations provenant de différentes sources en exploitant les connaissances qui leur sont associées.
Citons notamment l’initiative « linked
data », qui vise à promouvoir la mise à disposition et l’interconnexion
des données sur le web afin de favoriser l’émergence d’un web de données à côté
du web de documents. Les formats et ontologies développées pour le web
sémantique permettent cette ouverture des données sur le web.
Cependant pour assurer une réelle interconnexion des diverses sources
de données il est nécessaire de ne pas dupliquer les références d’entités. Le
problème qui se pose alors est : existe-t-il déjà une référence pour mon
entité ? Si oui quelle est-elle ? Si non, comment puis-je décrire ma
nouvelle référence créée de façon à ce qu’elle se distingue des autres ?
Un problème similaire est le suivant : n’y-a-t-il pas des références
différentes qui désignent en fait la même entité, et qu’il faudrait
« regrouper » sous une seule référence ?
Pour résoudre ces problèmes, on peut s’appuyer sur la description
sémantique des entités. Pour distinguer des entités qui ont le même
« nom », on peut chercher ce qui différencie chacune de toutes les
autres entités de même nom.
L’ABES (Agence des bibliothèques de l’enseignement supérieur), basée
à Montpellier, dispose de données permettant de bâtir de tels référentiels dans
le domaine documentaire : référentiel d’œuvres, d’auteurs, de
collectivités…
L’objectif de ce travail est de définir un cadre formel pour ces
problèmes de référencement des données puis de proposer des solutions à ces
problèmes. Les données et applications de l’ABES fourniront un cadre propice à
l’expérimentation et l’évaluation des solutions proposées.