Sujet : "Mining
the semantic
web " : Mises-à-jour automatiques d'ontologie basée sur
les motifs
fréquents
Encadrants :
Lylia Abrouk, Daniele Hérin, Maguelonne Teisseire
Lieu :
LIRMM
La rapidité de l’évolution de la
masse d’informations dans tous les domaines a
généré un besoin d’organisation et de
structuration des contenus. Les ontologies servent à la
représentation des données échangées dans
un domaine particulier afin de faciliter la communication interne au
système informatique et externe entre les différents
acteurs du domaine. Ces ontologies ne pouvant être statiques
nécessitent une mise à jour en fonction du besoin de la
communauté et de l’apparition de nouveaux documents ou concepts.
Pour le web sémantique, ces évolutions deviennent une
nécessité face à la dynamique des informations. Le
challenge est alors : comment combiner les approches de recherche de
motifs (web mining) à une mise à jour automatique de
l’ontologie décrivant le domaine.
L’objectif de ce stage est d’étudier l’impact de la fouille de
données dans la mise à jour des ontologies. Il existe
différentes techniques d’enrichissement d’ontologies à
l’aide d’algorithmes de type classification supervisée ou non.
Cependant, même si les motifs séquentiels ont
montré qu’ils pouvaient être utiles pour la
représentation de contenus textuels et qu’ils offraient
des solutions pour faire ressortir des « concepts »
émergents, il n’existe pas de travaux sur l’utilisation de ces
motifs pour enrichir l’ontologie. Il s’agit de montrer comment
intégrer les résultats obtenus dans les motifs dans un
cadre d’ontologie évolutive.
Le stage proposé concerne plusieurs travaux : ceux
associés à la construction des ontologies: (i) extraction
de termes représentatifs dans un domaine
spécialisé, (ii) identification de relations lexicales
entre les termes, (iii) placement de nouveaux termes dans une ontologie
existante et ceux associés à l’extraction de motifs
fréquents (web usage et web content mining) pour ensuite
identifier les différentes propositions pertinentes, pouvant
être corrélées de ces deux domaines.
Le travail à réaliser est donc axé sur les points
suivants :
Références :