Sujet :  "Mining the semantic web " : Mises-à-jour automatiques d'ontologie basée sur les motifs fréquents

 

Encadrants : Lylia Abrouk, Daniele Hérin, Maguelonne Teisseire

 

Lieu : LIRMM


La rapidité de l’évolution de la masse d’informations dans tous les domaines a généré un besoin d’organisation et de structuration des contenus. Les ontologies servent à la représentation des données échangées dans un domaine particulier afin de faciliter la communication interne au système informatique et externe entre les différents acteurs du domaine. Ces ontologies ne pouvant être statiques nécessitent une mise à jour en fonction du besoin de la communauté et de l’apparition de nouveaux documents ou concepts.

Pour le web sémantique, ces évolutions deviennent une nécessité face à la dynamique des informations. Le challenge est alors : comment combiner les approches de recherche de motifs (web mining) à une mise à jour automatique de l’ontologie décrivant le domaine.
 
L’objectif de ce stage est d’étudier l’impact de la fouille de données dans la mise à jour des ontologies. Il existe différentes techniques d’enrichissement d’ontologies à l’aide d’algorithmes de type classification supervisée ou non. Cependant, même si les motifs séquentiels ont montré qu’ils pouvaient être utiles pour la représentation de contenus textuels et  qu’ils offraient des solutions pour faire ressortir des « concepts » émergents, il n’existe pas de travaux sur l’utilisation de ces motifs pour enrichir l’ontologie. Il s’agit de montrer comment intégrer les résultats obtenus dans les motifs dans un cadre d’ontologie évolutive.

Le stage proposé concerne plusieurs travaux : ceux associés à la construction des ontologies: (i) extraction de termes représentatifs dans un domaine spécialisé, (ii) identification de relations lexicales entre les termes, (iii) placement de nouveaux termes dans une ontologie existante et ceux associés à l’extraction de motifs fréquents (web usage et web content mining) pour ensuite identifier les différentes propositions pertinentes, pouvant être corrélées de ces deux domaines.

Le travail à réaliser est donc axé sur les points suivants :

•    Faire un état de l’art sur les méthodes de mise à jour des ontologies basées ou non sur des techniques de fouille de données
•    Proposer une approche basée sur l’extraction de motifs et définir les algorithmes de mise à jour associés
•    Evaluer la proposition sur un jeu de données réelles.


Références :

•    Stumme G, Hotho A, Berendt B « Semantic Web Mining: State of the art and future directions » Web Semantics: Science, Services and Agents on the World Wide Web, Vol. 4, No. 2. (June 2006), pp. 124-143.
•    Maedche, A. and Staab, S. 2000. Mining Ontologies from Text. In Proceedings of the 12th European Workshop on Knowledge Acquisition, Modeling and Management (October 02 - 06, 2000). R. Dieng and O. Corby, Eds. Lecture Notes In Computer Science, vol. 1937. Springer-Verlag, London, 189-202.
•    Y. Li and N. Zhong, “Capturing Evolving Patterns for Ontology-Based Web Mining,” Proc. IEEE/WIC/ACM Int'l Conf. Web Intelligence, pp. 256-263, 2004.