** Recup url : http://www.biomath.jussieu.fr/ATALA/these/hai_doan_nguyen_techniques_generiques_d_accumulati.html Fiche de description d'une soutenance de thèse

Fiche de description d'une soutenance de thèse


Techniques génériques d'accumulation d'ensembles lexicaux structurés à partir de ressources dictionnairiques informatisées multilingues hétérogènes

Generic Techniques for Accumulation of Structured Lexical Sets fromHeterogeneous Multilingual Computerized Dictionary Resources

Hai Doan Nguyen

(Hai.Doan-Nguyen@imag.fr)


Contenu

Mots clés : accumulation, récupération, production, ressourcedictionnairique, ensemble lexical, lexicographie computationnelle,linguistique computationelle
Keywords: accumulation, acquisition, production, dictionary resource,lexical set, computational lexicography, computational linguistics

Résumé

Cette thèse étudie l'accumulation d'ensembles lexicaux structurésà partir de ressources dictionnairiques informatisées multilingueshétérogènes, et propose des techniques génériques pour sa réalisation.

La récupération de ressources dictionnairiques, l'aspect passif del'accumulation, consiste à convertir une ressource vers une formecomputationnelle structurée, ce qui est primordial pour toute futureexploitation. La difficulté vient de la complexité inhérente dudictionnaire, de la probabilité d'erreurs, de l'hétérogénéité desressources, etc. Après une étude des travaux précédents, et d'importantesexpérimentations, nous avons conçu et réalisé RÉCUPDIC, un systèmespécialisé pour la récupération dictionnairique, qui se compose de méthodeset d'outils puissants et faciles à utiliser. Il s'est montré efficace etpratique, lors de la récupération d'une grande quantité de ressources dediverse complexité (environ 33 ressources, soit au total 1,7 millionsd'articles dans 12 langues).

La production de nouveaux ensembles lexicaux est l'aspect actif del'accumulation : il s'agit de fabriquer automatiquement des unitéslexicales organisées selon de nouvelles structures linguistiques, en masse,et à bon marché. Il ne semble pas qu'une approche générique à ce problèmeait été proposée dans des travaux antérieurs. Notre système PRODUCDIC a étéconçu et implémenté pour spécifier et réaliser des processus de productionde façon générique et efficace. Comme résultat d'expérimentation, 12 «brouillons de dictionnaire » ont été fabriqués, avec un total de plus de540 000 articles.

Nous élaborons ensuite le concept d'accumulation en ligne : il s'agit defabriquer des unités lexicales à la demande. Nous proposons aussi plusieursniveaux d'abstraction pour la notion d'ensemble lexical. Cela nous permetde proposer un modèle d'organisation dynamique d'un système lexical.

Abstract

This Ph.D. dissertation studies the accumulation of structuredlexical sets from heterogeneous multilingual computerized dictionaryresources, and proposes generic techniques for such accumulation.

Acquisition of dictionary resources, the passive aspect of accumulation,consists in converting a resource into a structured computational form,which is essential for all future exploitation of the resource. Thedifficulty comes from the inherent complexity of dictionaries, theprobability of errors, the heterogeneity of the resources, etc. After studyof previous work and extensive experimentation, we have designed andimplemented RÉCUPDIC, a system specialized for dictionary acquisition,which contains powerful and easy-to-use methods and tools. It has provedefficient and practical, and has helped us accumulate numerous resourceswith varying degrees of complexity (about 33 resources, with a total of1.7 million entries in 12 languages).

Production of new lexical sets is the active aspect of accumulation,through which lexical units of new linguistic structures are producedautomatically, en masse, and cheaply. Apparently, no generic solution hasyet been proposed for this problem. Our system PRODUCDIC has been designedand implemented for specifying and carrying out production processesgenerically and efficiently. As the results of our experiments, 12dictionary drafts were produced, with a total of more than 540 000 entries.

We then develop the concept of on-line accumulation, in which lexical unitsare supplied when required. We also introduce several levels of abstractionfor the notion of lexical sets. This permits us to propose a dynamicorganization model for lexical systems.


Informations administratives

Jury

M. Augustin LUX, Prof. des Univ --Président du jury.
M. Guy PERENNOU, Prof. des Univ -- Rapporteur.
M. Paul SABATIER, Chargé de Recherche au CNRS -- Rapporteur.
M. NGUYEN HUY XUONG, Prof. des Univ. -- Examinateur.
M. Mathieu LAFOURCADE, Maître de Conf. -- Examinateur.
M. Christian BOITET, Prof. des Univ. -- Directeur de thèse.
M. Gilles SÉRASSET, Maître de Conf. -- Co-directeur de thèse.
Université : Université de Grenoble
Discipline : Informatique
Date de soutenance : 23/12/1998
Lieu de soutenance : Campus Grenoble


Ces renseignements ont été saisisle 21/10/1999parCatherine Maksud(cvi@biomath.jussieu.fr).

Informations puisées dans l'annonce du 23 Dec 1998 sur LN-FR.
Informations validées le 21/10/1999.
these 1.1

Vous pouvez proposer de mettre à jour cette fiche créer une nouvelle fiche en copiant et modifiant celle-ci
Cette proposition sera examinée par le responsable de cette rubrique avant publication.


Page générée par Formulaire V1.20