Conclusion

** Recup url : http://www-clips.imag.fr/geta/mathieu.mangeot/MM-These/conclusion.html Conclusion

Conclusion

Nous avons présenté dans cette thèse un environnementcentralisé et distribué de récupération, manipulation, construction etconsultation de ressources lexicales hétérogènes et multilingues. Cetenvironnement répond aux problèmes complexes de structuration etmanipulation de données hétérogènes, de visualisation d'une grandequantité de données et de construction en collecticiel par des personnesaux compétences diverses contrôlée par un groupe central delexicologues.

Nous avons d'abord résolu séparément ces problèmesgrâce à des expérimentations variées sur la consultation de ressourceshétérogènes, l'enrichissement et personnalisation du résultat ainsi quela construction de ressources.

Notre environnement répond à l'ensemble de ces problèmesen ajoutant un niveau d'abstraction qui domine les bases de donnéesutilisées pour le stockage et en intégrant un serveur pour la constructioncoopérative. Son noyau inclut un formalisme générique de définition desstructures. Il permet de concevoir une véritable "plate-forme lexicale"générique et extensible.

Nous avons appliqué cet environnement au projet Papillonde développement par des bénévoles sur Internet d'une base lexicalemultilingue dont l'architecture est constituée d'un dictionnaire monolinguede sens (lexies) pour chaque langue et d'un dictionnaire pivot d'acceptionsinterlingues (axie) reliant les articles monolingues. Les expériencespréliminaires ont été concluantes.

Principes dégagés devant ce travail

Au cours de notre travail, plusieurs principes se sontdégagés, et ont été tantôt affinés, tantôt généralisés, maistoujours expérimentés et validés. Nous proposons ci-dessous une liste des"dix commandements" de la construction d'une base de données lexicalesidéale.

Principes de structuration logique

1) Le principe d'exhaustivité reprend le principed'œcuménisme provient de la thèse de Gilles Sérasset. Il s'agit dela volonté d'accueillir dans une base lexicale toutes les théorieslinguistiques, et en particulier celles relatives au niveau lexical, grâceà un formalisme générique permettant de représenter un grand nombre destructures de dictionnaires sans imposer leur conversion en une seulestructure particulière. Cela autorise l'utilisation de données provenant dethéories linguistiques différentes. Nous avons expérimenté ce principeavec DicoWeb où nous utilisons des données ayant des structures trèsdifférentes. En partie C, DML est basé sur ce principe puisqu'il reprend lesystème SUBLIM de la thèse de Gilles Sérasset. Ce principe est observédans le projet Papillon avec d'une part l'utilisation d'une structurecomplexe (celle de DiCo) et d'autre part, la possibilité de référencer desdonnées externes au projet comme les UW du projet UNL, les catégoriessémantiques du dictionnaire de NTT, les synonymes du projet WordNet, etc.

2) Le principe d'abstraction du niveau donnéesconsiste à différencier le niveau de stockage des informations du niveau demanipulation. Nous avons expérimenté ce principe avec la maquette DicoWebdans laquelle nous utilisons des ressources stockées directement sous formede fichiers texte et d'autres provenant de serveurs Web distants. en partieC, nous spécifions ce principe avec l'API de fournisseur de ressources.Ensuite, dans le projet Papillon, nous réalisons ce principe avecl'utilisation d'un SGBD pour le stockage et de programmes en DOM pour lamanipulation.

Principes liés à l'aspect collaboratif

3) Le principe de mutualisation consiste à mettreen commun les ressources lexicales apportées par chaque utilisateur de labase. Ce principe est spécifié en partie C avec le système de crédit depoints accordé pour chaque contribution à la base. Ce principe estréalisé dans le projet Papillon dès le départ avec la récupération deressources provenant d'horizons divers : le dictionnaire JMDict de Jim Breen,la base DiCo d'Alain Polguère, le FeM du GETA et les données du projetSAIKAM.

4) Le principe de consultation gratuite consisteà toujours laisser la possibilité au public de consulter la basegratuitement. Ce principe a été observé avec le premier serveur du FeMwAlex construit par Mathieu Lafourcade et ensuite expérimenté avec lesmaquettes DicoWeb, DicoSzótár, DicoFeJ, Nihongo et le FeM. Il estspécifié en partie C et réalisé dans le projet Papillon.

5) Le principe de personnalisation généralconsiste à laisser à chaque utilisateur de la base lexicale la possibilitéde personnaliser les requêtes, les résultats, les propositions de travailde la base, etc. Le résultat des requêtes est personnalisé principalementpar l'utilisation de feuilles de style. Ce principe a été expérimenté enpremier lieu avec la nouvelle maquette du serveur du FeM qui permet deconfigurer le résultat à la volée. En partie C, nous avons proposéd'implémenter ce principe en créant un espace virtuel pour chaqueutilisateur, où il peut stocker ses feuilles de style et en laissant lapossibilité d'annoter les informations de la base. Ce principe a étéréalisé dans le projet Papillon avec l'utilisation de profilsd'utilisateurs ainsi que des préférences personnalisées, modifiablesstrictement via des interfaces appropriées, et si possible évoluantautomatiquement par suivi et apprentissage du système.

Principes liés aux données

6) Le principe d'héritage s'applique de façonvariée. En ce qui concerne les groupes d'utilisateurs, il consiste àutiliser une hiérarchie de groupes d'utilisateurs qui héritent de plusieurspropriétés comme les feuilles de style, les droits d'accès, les poids. Cespropriétés sont définies une seule fois pour l'univers des utilisateurs.Par défaut chaque groupe et chaque utilisateur hérite de ces propriétés.Chacun peut ensuite définir au niveau d'un groupe ou d'un utilisateurd'autres propriétés qui seront à leur tour héritées. Ce principe estspécifié en partie C et réalisé dans le projet Papillon à différentsendroits, là aussi par les groupes d'utilisateurs, les poids, lesdéfinitions des schémas, etc.

7) Le principe de traçabilité consiste à notertous les changements effectués sur les informations lexicales et êtrecapable de tracer tous les changements successifs subis par ces informationsdepuis leur création ou leur importation dans la base. Ce principe a étéexpérimenté en partie B dans les maquettes DicoSzótár et Nihongo danslesquelles nous notons des informations de gestion pour chaque ajoutd'information dans ces dictionnaires. Nous avons ensuite généralisé etspécifié ce principe en l'appliquant à toutes les informations de la baselexicale en partie C. Pour cela, nous utilisons les attributs DML history-refet history ainsi que des fichiers d'historique. Nous appliquons ce principeau projet Papillon en créant une table dans la base de données réservéeaux historiques des modifications.

8) Le principe de protection des données communesconsiste à n'intégrer dans la base commune que des données révisées pardes spécialistes. Ce principe vient d'une constatation réalisée sur desprojets comme SAIKAM. En effet, lorsque beaucoup de contributeurs apportentdes données nouvelles directement dans la base, celle-ci se retrouve, mêmesans mauvaise intention, polluée par des contributions erronées. Il esttrès difficile ensuite de les corriger. De ce fait, la base n'est jamaisdans un état stable. En partie C, nous avons donc spécifié que lescontributions sont d'abord stockées dans l'espace virtuel du contributeurpuis sont révisées par des spécialistes avant d'être intégrées à labase. En partie D, nous observons ce principe dans le projet Papillon.

Principes de mise en œuvre

9) Le principe de récupération totale intervientlors de la récupération d'une ressource lexicale. Il consiste àrécupérer toutes les informations de la ressource de façon à pouvoirregénérer cette ressource à partir de la forme récupérée. Nousspécifions ce principe en partie C et l'appliquons à la récupération desdictionnaires FeM, JMDict et DiCo dans le projet Papillon de façon àpouvoir regénérer des dictionnaires à partir de la base dans cesformats.

10) Le principe de réciprocité consiste àconsidérer que la base devrait échanger des informations avec desprogrammes partenaires. Ce principe a été expérimenté dans les maquettesDicoWeb avec les lemmatiseurs et DicoSzótár avec les conjugueurs. Nousavons spécifié ce principe en partie C avec les API de fournisseurs deservices et de ressources. Le projet Papillon implémente ces API.

Problèmes complexes restant à résoudre

L'analyse et la mise au point d'un environnement decréation, manipulation et consultation de ressources lexicales a fait surgirdes problèmes complexes restant à résoudre. Ces problèmes appartiennentà des domaines variés de l'informatique.

Le stockage et le calcul des poids ne posent pasde problèmes lorsqu'on a peu de données et peu d'utilisateurs. Par contre,nous pensons arriver au bout de peu de temps à plus de 100 000 articlesdans la base. Envisageons que ces articles soient reliés par environ300 000 liens et que la base comporte plus de 3 000 utilisateurs. Si unpoids différent est associé à chaque élément, cela représente plus d'untéraoctet de données à stocker. Une base de données ordinaire ne peutgérer cette taille. Il faut alors imaginer un autre moyen pour stocker lespoids comme par exemple instaurer un système d'héritage de poids entre lesgroupes et les stocker sous forme de listes ou de matrices creuses ou encoreutiliser les techniques de compression de séquences d'images.

Le problème de calcul automatique de profilsd'utilisateurs est important pour savoir qui contribue à quoi dans labase, avec quelle fréquence, et quelle qualité de contribution. Les profilssont utiles pour établir des statistiques, optimiser la répartition dutravail à faire, accorder un degré de confiance aux contributeurs, etc.

Le problème de gestion de charge importante sur unserveur est provoqué par des connexions simultanées multiples, destéléchargements très fréquents, une activité continue (connexions depuisle Japon ou le Canada, etc.), et des opérations en tâche de fond et unesauvegarde tous les jours.

Le problème de la gestion des conflits et de lasynchronisation sur les annotations et les contributions survientlorsqu'un article est supprimé de la base ou que deux articles sontfusionnés. Que deviennent alors les annotations et les contributionsassociées à ces articles ? Lorsqu'une contribution est acceptée, quedeviennent les annotations et les autres contributions faites sur cettecontribution ?

Perspectives de recherche

Nous n'avons pas encore pu testernotre environnement pour la construction de nouvelles ressources dans desconditions réelles d'utilisation permettant de mettre au point et devérifier l'utilisabilité de nos outils. Le projet Papillon lancé encollaboration entre le GETA-CLIPS, le National Institute of Informatics deTokyo au Japon, et de nombreux autres partenaires, nous permettra de testernotre environnement pour la construction de dictionnaires multilingues avecentre autres le français, le japonais, le thaï, le lao et le vietnamien.Nous prévoyons d'ajouter à court terme le malais, puis le coréen et lechinois.

Un financement post-doctoral de laJSPS (Japanese Society for the Promotion of Science) nous a été accordépour travailler deux ans sur le projet Papillon au NII à Tokyo. Nousmettrons en place un serveur qui implémente notre environnement de créationde nouvelles ressources et réaliserons ensuite les tâches d'administrationnécessitées par un tel serveur.

Nous prévoyons de mettre en place lesdifférentes interfaces pour la consultation et la personnalisation durésultat des données et aussi des interfaces pour préparer le travail deslexicologues sur la vérification et le contrôle des données. Noustesterons nos différentes méthodes de construction de dictionnaires auprèsdes contributeurs bénévoles.

Enfin, le cadre de ce projet nouspermettra de nous attaquer aux problèmes restant à résoudre : stockage despoids, calcul automatique des profils, et gestion des conflits sur lescontributions.