** Recup url : http://www-clips.imag.fr/geta/services/dml/Papillon02Appel.html Papillon 2002 Announcement v5

Atelier PAPILLON-2002 Workshop

sur les bases lexicales multilingues
on Multilingual Lexical Databases

Tokyo, 16-18 juillet/July 2002

Annonce No5 / Announcement No5 10 April 2002
Lieu /Venue: NII, Hitotsubashi, Chiyoda-ku, Tokyo, Japan

Date limite de soumission étendue au 31 mai 2002

Submission deadline extended to the 31 May 2002

Présentation

Les bases de données lexicales classiquescomme les bases de termes multilingues sont des serveurs d'information lexicale structuréedont les buts sont soit d'apporter aux humains un accès facile à toute l'informationsur les mots (termes, idiomes) soit de permettre la création de différentes applications de TAL (analyse, traduction, génération, recherche d'information, extraction, résumés, etc.).

En revanche, la base lexicale multilingue Papillonest construite à la fois pour des humains et pour des machines:elle doit contenir assez d'information pour être utilisée aussi bien par des humainspour différentes utilisations (consultation, produciton de dictionnaires personnalisés, apprentissage),que par des programmes (compilateurs de dictionnaires formattés pour des applicaitons de TALou des applications de TAL directement).

Les bases lexicales multilingues sont des serveursde données lexicales structurées. Ces données peuvent être utilisées soit pardes humains pour définir leur propre dictionnaire soit par des applicationsde traitement des langues.

Ces dernieres années, nous assistons à uneaccumulation de ressources lexicales dans les laboratoires de traitementautomatique de la langue ainsi que sur Internet. les bases lexicalesmultilingues tentent de résoudre ce problème d'accumulation enorganisant la manipulation et l'accès à ces ressources. Ces bases sont unpoint central de la recherche dans les sciences du langage et dans ledéveloppement des technologies de la langue. Comme les bases de donnéesgénomiques, les bases lexicales sont complexes, évoluent, constituent desserveur richement annotés et posent de difficiles problèmes scientifiques dans denombreux domaines.

Les buts de cet atelier sont de rendre compte de larecherche existante dans les bases de données multilingues et d'identifierles problèmes clés. Plus généralement, l'atelier aidera à definir desquestions de recherche de la nouvelle "communauté des bases lexicalesmultilingues" autour de Papillon et initiera les échanges sur les problèmesen cours et les résultats entre cette communauté et les autres communautés(lexicographie, traduction, interfaces hommes-machine, bases de données ausens large, etc.).

Papillon est un projet de construction et d'usagecollaboratifs sur la toile d'une base lexicale multilingue et dedictionnaires dérivés en source ouverte (français, anglais, japonais, lao,thai et vietnamien) L'atelier est destiné à des participants de plusieursspecialités incluant les bases de données, la linguistique, lalinguistique-informatique, les annotations et XML.

L'atelier traitera une sélection des pointssuivants :

Structures

Microstructures des articles ou représentation lexicale
Macrostructures des dictionnaires et architecture générale
Modèles incluant la parole, les données multimodales, et les metadonnées.

Données Lexicales

Standards de metadonnées fournissant de l'aide pour les bases lexicales.
Méthodes systématiques pour peupler une base lexicale
Problèmes de récupération de dictionnaires
Extraction de données mono et bilingues
Problèmes de traduction interne au dictionnaire

Bases de données

Support bases de données (par exemple quelle technologie de bases de données standard est compatible avec les bases lexicales?)
Requetes d'annotations multicouches
Extensions du langage de requêtes XML (XQL)
Analyse des languages ad hoc existants
Méthodes d'indexation appropriées pour des chaînes linguistiques et des structures d'archivage.

Autres sujets

Ergonomie, Interfaces, protocoles d'accès aux données
Gestion sociale du dictionnaire

Overview

Classical multilingual lexical databases such as multilingual term banks are repositories of structured lexical information aiming either at providing humans with an easy access to all available information about words (terms, idioms) or at allowing the creation various NLP applications (analysis, translation, generation, information retrieval, extraction, summarization, etc.).

By contrast, the Papillon multilingual lexical database is builtboth for humans and for machines: it must contain enough information to be used as well byhumans for various purposes (consultation, production of personalized dictionaries, learning),as by programs ("compilers" of formatted dictionaries for NLP applications, or NLP applications directly).

Over the last decade, we assist to an accumulation of lexical resourcesin NLP laboratories and on the Internet. The lexical databases try to solve this accumulation problem by organizing the manipulation and the access to these resources. These databases are a central point of research in the language sciences, and in the development of new human language technologies. Like genomic databases, lexical databases are complex, evolving andrichly annotated repositories, and pose interesting challenges for efficientrepresentation, indexing and query.

The goals of the workshop are to take stock of existing research in multilingual lexical databases and to identify the key problems. More broadly, the workshop will help define the research questions of the newPapillon "multilingual lexical database community" and initiate the interchangeof relevant ongoing problems and results between this community and other communities (lexicography, translation, human-computer interactions, database community at large).

Papillon is a project of construction and collaborative usage on the web of a multilinguallexical database and electronic dictionaries derived in open source(French, English, Japanese, Thai, Lao, vietnamese)The workshop is expected to attract participants from a range of specialtiesincluding databases, linguistics, computational linguistics, annotation and markup.

The workshop will address a selection of the following topics:

Structures

Microstructures of the Entries and Lexical Representation
General Architecture and Macrostructure of the Dictionary
Models for lexical databases including speech, multimodal data, and metadata.

Lexical Data

Metadata standards serving as finding aids for lexical databases.
Systematic methods for populating lexical databases.
Dictionary recuperation Issues.
Monolingual data and bilingual data extraction.
Dictionary Internal Translation Issues.

Databases

Database support (e.g. what standard database technology has proven worthwhile for lexical databases?)
Query of multilayer annotations.
Extensions of XML query languages
Analysis of existing ad hoc query languages
Appropriate indexing methods for linguistic strings and structures archiving.

Programme / Program

Le programme sera varié et prévu pour maximiser la coopération entre les spécialités, et pour permettre des discussions ouvertes étendues.Les composantes du programme seront entre autres :

Des ateliers sur les différents modèles et structures linguistiques et lexicales par exemple, la structure des articles monolingues, les langages de requêtes semi-structurés;
Des sessions de posters sur des lexiques et textes annotés (et peut être d'autres);
Des présentations de papiers rapportant des nouvelles recherches;
Des démonstrations de systèmes pour créer et gérer les données lexicales.

The program will have a varied format, designed to maximize cross-fertilizationamong the various specialties, and to allow extended open discussion. Components ofthe program will include:

Tutorials on relevant models from linguistics, databases or annotation, e.g. the structure of lexical entries and semi-structured query languages;
Panel sessions on annotated text and lexicons (and possibly others);
Paper presentations reporting new research;
Demonstrations of systems for creating and/or managing lexical data.

DATES IMPORTANTES /IMPORTANT DATES

2002/05/31 Date limite de soumission / Submission Deadline
2002/06/15 Notification d'acceptation / Notice of Acceptance
2002/06/30 Version finale / Camera Ready Papers
2002/07/15 Arrivée conseillée / Advised Arrival
2002/07/18 Fin / end

Appel à communications / Call for Papers

Les papiers techniques sur les aspects informatiques (développement du serveurweb, utilisation d'une base de données, développement d'interfaces, etc.),les aspects linguistiques (microstructure commune monolingue, problèmes spécifiquesaux langues, manuels d'encodage, etc.) ainsi que les aspects sociaux (commentmotiver les contributeurs, comment agrandir la communauté, etc. ) sont tous bienvenus.

Envoyez vos papiers complets rédigés en anglais aux formats rtf, pdf, ps, html à l'adresse suivante :mailto:mangeot@nii.ac.jp

Nous vous conseillons fortement d'utiliser le modèle de Springer Verlag disponibleà l'adresse suivante :http://www.springer.de/comp/lncs/authors.html

Technical papers about computer related aspects (development of the web server,use of a database, development of interfaces, etc.), linguistic aspects (monolingualcommon microstructure, language specific encoding problems, best practice, etc.)as well as social aspects (how to open the community, how to motivate the contributors)are all welcomed.

Please send your full papers written in Engllish in rtf, pdf, ps or html formats to the followingaddress: mailto:mangeot@nii.ac.jp

We strongly recommend you to use the Springer Verlag template available at the following address:http://www.springer.de/comp/lncs/authors.html

Comité d'organisation local / Local Organizing Committee

President Mathieu Mangeot, NII, Tokyo

Frederic Andrès, NII, Tokyo
David Thévenin, NII, Tokyo
Shiho Kurosawa, NII, Tokyo

Comité de programme / Program Committee

President Christian Boitet, GETA-CLIPS, Grenoble

Mr. Frederic Andrès, NII,Tokyo
Mr. François Brown de Colstoun, Ambassade de France, Tokyo
Ms. Françoise Guelle, Ambassade de France, Tokyo
Mr. Kyo Kageura, NII,Tokyo
Ms. Asanee Kawtrakul, KU, Bangkok
Mr. Mathieu Lafourcade,LIRMM, Montpellier
Mr. Francois Lareau, Université de Montréal, Montreal
Mr. Mathieu Mangeot, NII,Tokyo
Mr. Emmanuel Planas, GETA-CLIPS, Grenoble
Mr. Alain Polguère, Université de Montréal, Montreal
Mr. Gilles Sérasset, GETA-CLIPS, Grenoble
Ms. Kumiko Tanaka Ishii, Tokyo University, Tokyo
Mr. David Thévenin, NII, Tokyo
Ms. Mutsuko Tomokiyo, GETA-CLIPS, Grenoble
Mr. Michael Zock, LIMSI, Orsay

Informations diverses / Miscellaneous Information

NII: http://www.nii.ac.jp
CLIPS: http://www-clips.imag.fr/
Papillon: http://www.papillon-dictionary.org/
E-mail list manager: mailto:mangeot@nii.ac.jp

Atelier PAPILLON-2002 Workshop

sur les bases lexicales multilingueson Multilingual Lexical Databases

Tokyo, 16-18 juillet/July 2002

Date limite de soumission étendue au 31 mai 2002

Submission deadline extended to the 31 May 2002

Présentation

Structures

Données Lexicales

Bases de données

Autres sujets

Overview

Structures

Lexical Data

Databases

Other Topics

Programme / Program

DATES IMPORTANTES /IMPORTANT DATES

Appel à communications / Call for Papers

Comité d'organisation local / Local Organizing Committee

Comité de programme / Program Committee

Informations diverses / Miscellaneous Information

sur les bases lexicales multilingues
on Multilingual Lexical Databases