** Recup url : http://vulab.ias.unu.edu/papillon/Projet-V36-FRA-UTF8.html Projet-V36-FRA-UTF8.html 
   

Kyoto, le 02 Juin 2000, Version 36

Projet de Dictionnaire Electronique

Français Anglais Japonais

(projet Papillon)

  1. Introduction
    1. Un vide à combler

    2. Il n’existe pas à ce jour de dictionnairefrançais japonais électronique vraiment utilisable et gratuit. Certainséditeurs proposent de tels dictionnaires payants, mais même ceux-ci portentsur un vocabulaire commun basique. Les termes appartenant à tel ou teldomaine spécialisé ne peuvent être trouvés que dans des ouvrages papiers,et ceux-ci sont en nombre limité.

      A l’heure où les échanges économiquesentre la France et le Japon s’accélèrent, les acteurs de cette activitése trouvent démunis au niveau essentiel de la langue. La traduction d’undocument de l’une des langues dans l’autre, pour les domaines spécialisés,prend statistiquement plus de temps que, par exemple, entre l’anglaiset le japonais, couple pour lequel de tels dictionnaires électroniqueset de nombreux dictionnaires papier spécialisés existent. La triste réalitéest que la plupart des apprenants de l’une de nos deux langues utilisentdes outils informatiques anglais-japonais.

      Le manque de ressources bilingues est aussiressenti au niveau de l’élaboration d’applications linguistiques pourlesquelles des dictionnaires adaptés sont nécessaires. C’est ainsique, par exemple, Nippon Telegraph & Telephone au Japon ou Lexiquesten France sont amenés développer leurs propres dictionnaires en un effortséparé et long. En milieu universitaire, il résulte de ce manque queles applications réalisées entre le français et le japonais ont uneportée réduite, alors que dans le même temps apparaissent de nouveauxlogiciels anglais-japonais de qualité.

      Ceci étant, il est indéniable que lalangue française attire grandement l’attention du Japon. Inversement,un nombre croissant de français investissent l’énergie nécessairepour apprendre le japonais. Il y a donc un vide à combler.

    3. Un support de communication idéal

    4. Les facilités de communication qu’offreInternet permettent d’envisager de façon réaliste qu’un projet decoopération générale entre des traducteurs des deux langues permettraitde construire le dictionnaire dont nous avons besoin. Les traducteurs oules spécialistes bilingues franco-japonais d’un domaine précis auraientintérêt à étoffer le plus possible ce dictionnaire pour leur propresbesoins, le principe du dictionnaire étant d’être gratuit pour uneexploitation non commerciale.

      Un projet similaire entre l’anglais etle japonais est en place depuis une dizaine d’années. Ce dernier a permisla construction effective d’un dictionnaire japonais-anglais gratuitaccessible sur serveur Internet. Il s’agit du projet Edict du Pr. JimBreen de l’Université Monash, en Australie (http://www.rdt.monash.edu.au/~jwb/japanese.html).Ce dictionnaire comprend maintenant 70.000 entrées de vocabulaire commun,un dictionnaire spécifique pour les kanjis, et une vingtaine de dictionnairesspécialisés (biologie, loi, etc..).

      Un autre projet alimenté par des volontairesest en place chez NEC pour augmenter les dictionnaires de l’outil detraduction de NEC, et amène régulièrement de nouvelles entrées (http://meshplus.mesh.ne.jp/CRV2/dic/club/down.html).

      On peut encore citer le projet Saikam entrele thaïlandais et le japonais, alimenté par les générations successivesd’étudiants thaïlandais menant leurs études au Japon (http://thaigate.nacsis.ac.jp/).

    5. Des Ressources techniques disponibles
    La mise en place d’un tel projet nécessitela mise à disposition d’un serveur Internet et des modalités d’entréedes termes et de constitution du dictionnaire. L’Université des NationsUnies, située à Tokyo (http://www.ias.unu.edu/), offre non seulementles ressources informatiques (serveur, mémoire, accès), mais aussi uneboite à outil permettant de définir et créer très simplement un environnementde travail interactif basé sur Internet, et pouvant mettre en jeu à peuprès toutes les techniques disponibles (chat, vidéo conférence, interventionsur un même fichier, etc..).
  2. Concepts de base
    1. Dictionnaire trilingue

    2. Nous proposons l’addition de l’anglaiscomme langue d’interface supplémentaire pour ce dictionnaire franco-japonais.Le concept s’est révélé heureux dans un projet similaire pour leslangues française, anglaise et malaise d’une part, et française, anglaise,et thaï d’autre part (projet FEM et FET, Mathieu Lafourcade, LaboratoireLIRMM de l’Université de Montpellier, http://www.lirmm.fr/~lafourca/et GETA , CLIPS). Etant donné que la langue pour laquelle le nombre d’ouvragesde référence est le plus grand est l’anglais, cela anticipe les fusionsavec d’autres dictionnaires, et permet lors de la construction de bénéficierde ces ouvrages comme support. En outre beaucoup de japonais et de françaisconnaissant mieux l’anglais que respectivement le français ou le japonais,l’anglais peut donc aussi servir de référence pour une utilisationmanuelle.

    3. Type de dictionnaire
      1. Utilisation humaine via l’électronique

      2. Les personnes interagissant dans lesdeux langues (acteurs économiques, universitaires, traducteurs) ont souventaccès aux ordinateurs. Un des buts de ce dictionnaire est donc de leurfournir une aide directe, dans leur éditeur, leur navigateur ou leur assistantportable numérique (PDA) d’usage courant.

      3. Utilisation humaine via papier

      4. A chaque étape clé du dictionnaire,comme par exemple la complétion du vocabulaire d’un domaine particulier,une version papier permettra aux personnes n’ayant pas accès à l’électroniqueou à celles préférant le support classique de bénéficier de ce projet.

      5. Utilisation par la machine
      Comme indiqué plus haut, les ressources terminologiquesutilisables pour le développement de logiciels d’aide à la traductionsont inexistantes entre le japonais et le français. Les seules donnéesqui peuvent aider à ce type de réalisation doivent être profondémentrestructurées et augmentées. L’orientation du dictionnaire vers uneutilisation par la machine permettra ainsi d’encourager la réalisationde logiciels impliquant nos deux langues, en fournissant un premier supportpour de tels projets
    4. Exemple d’entrée possible

    5. Voici un exemple d’entrée simplifiéedu dictionnaire que nous proposons de réaliser. Dans la première phasedu projet, le contenu linguistique de ces entrées sera ouvertement débattuet fixé (via une liste de discussion Internet) avec l’aide du plus departicipants possibles et par référence aux études et projets existantspour aboutir rapidement à un consensus. L’exemple ci-dessous n’estdonc qu’indicatif.

      Entry

      id: 000001984

      lang: Japanese

      script+

      script type: hiragana

      script: たまたま

      script notes: ...

      reading+

      reading type: romaji (hiragana, romaji,intl phonetic syst, ..)

      reading: tamatama

      reading notes: ...

      grammar+

      category: adverb

      category info: ...(verb group, etc.)

      sense+(sense should be though rtather as"usage", or acception: can change with the grammar environment)

      xref: @000000001

      description language: French

      small description: par hasard, incidemment

      domain: general

      project (to note a specific project theword applies to):

      example+:

      example id: 01

      example text: その本屋でたまたまこの本を見つけた。

      admin

      origin+ : Le petit FUJY Dico Japonais->Francais,Apollo Japanese->English

      status: raw human (raw machine, raw human,(script, reading, grammar, sense, example-)checked, final)

      date of first entry: 2000.05.26

      last modification date: 2000.05.26

      used tool: Manu's fingers

      last human editor: Emmanuel Planas

      End of Entry

    6. Distribution

    7. Ce dictionnaire aura pour vocationd’être le plus largement distribué. L’utilisation en milieu industriel,académique, ou personnel sera gratuit. Seule la réutilisation du dictionnairedans un produit (logiciel ou papier) à vocation d’être vendu sera soumisà des royalties.

      Le design et les outils d’interrogationseront établis de telle façon à ce que les individus, les traducteursoccasionnels ou professionnels, les universitaires et les industriels puissents’en servir dans leur milieu logiciel ou papier.

    8. Assurance de la qualité du produit
      1. Auto-contrôle

      2. Un récent article émanant de NECet paru dans les actes de la conférence MT Summit (Singapour, sept. 1999) montre que si les ressources du dictionnaire sont ouvertes au publicdes utilisateurs, ceux-ci effectuent un contrôle continuel des entrées.Toute anomalie est tôt ou tard réparée. Il semble donc que, pourvu quel’accès soit ouvert, cela suffise à maintenir la qualité du dictionnaire.

      3. Vérification du dictionnaire

      4. Cependant, quels que soient les volontairesqui effectueront la saisie des mots du dictionnaire, un contrôle qualitésera effectué par des professionnels de la traduction ou des terminologuesreconnus par contrat rémunéré selon les crédits disponibles.

      5. Clarté sur le statut des entrées
      Dans tous les cas, il est primordial que lestatut des entrées (première entrée, vérifiée, finale) soit clairementprécisé à l’utilisateur.
    9. Format d’origine standard et supports multiples
La facilité d’utilisation de ce dictionnaireest une condition sine qua non de réussite. Il existe des standards defait dans le monde de l’édition, et il convient de les suivre. On peutpar exemple penser aux formats suivants:Pourtant, pour assurer l’efficacité etl’évolution de ce dictionnaire, le format central devra être l’undes standards que la recherche nous offre (format du Pr. Melby, du GETA,de NEC, etc..).

Ce format sera défini lors de la premièrephase (courte) du projet.

  1. Production
    1. Stratégie: double approche
      1. Court terme

      2. Dictionnaires très spécialisés,disponibles rapidement. Typiquement 1000 à 5000 mots. On peut penser parexemple aux termes courants de l’informatique, de la biologie cellulaire,de la législation de l’environnement, des parfums ou de la mode.

      3. Long terme
      Dictionnaire général. En plus de la compilationdes dictionnaires ci-dessus, la saisie des noms propres et communs se feraprogressivement. Pour que cela donne des résultats tangibles rapidement,une idée est de progresser par tranches de fréquence des mots français,anglais et japonais: les 1000 mots les plus fréquents des 3 langues, puisles 2000 suivants, etc..

      La première matière brute de ce dictionnaire(ce que nous appelons la "soupe lexicale") proviendra du rapprochementautomatique de deux dictionnaires disponibles: la version XML du dictionnaireEdict de Jim Breen (le JMDict), la version XML du dictionnaire FrançaisAnglais du GETA (voir plus haut)

    2. Mode de Production
      1. Plate-forme Internet

      2. L’Université des Nations Unies fournitd'hors et déjà un serveur pour l’accès Internet nécessaires à untelle opération. En outre, les travaux du Dr. Ng Chong devraient pouvoirnous aider à monter une plate-forme d’interaction avec les différentesressources informatiques permettant la saisie des termes à distance viaInternet, la manipulation de fichiers, le dialogue parallèle à la consultationd’un fichier, etc.

        Après validation (non lourde) de l’identitédes volontaires, ceux-ci pourront accéder librement au serveur et téléchargerou déposer leurs fichiers de travail.

        Périodiquement un sous-ensemble de cesmots sera vérifié par un spécialiste, dans ce cas également directementà distance, ou par l’envoi d’un fichier. La gestion du site pourrapareillement se faire à distance. De même, la consultation du dictionnaire,le téléchargement des ressources du dictionnaire (telles que, par exemple,les données) ou des différents outils mis à disposition se fera égalementvia internet. Un système de forum permettra d’interagir asynchroniquementpour les questions.

      3. Ressources Humaines
    La base du projet est d’attirer les volontaires.

    Une vingtaine de personnes sont inscritessur la liste de discussion du projet (mai 2000), et participent d'horset déjà activement à la mise en place du projet. Le commité scientifiqueréduit actuels'occupe du coté scientifique et organisationnel du projet.Le projet sera ouvert à tous les volontaires dès que celui-ci sera stableau niveau de son organisation et de ses choix scientifiques.

    Pourquoi ceux-ci participeraient-ils? Parceque ce genre dictionnaire n’existe pas gratuitement en version électronique,ni même commercialement ou en version papier, qu’il s’agisse du cadregénéral ou des domaines particuliers. C’est donc le seul moyen d’obtenirun dictionnaire utile pour les particuliers intéressés par les troislangues, mais aussi et surtout pour les professionnels de la traduction.

    A part ces volontaires qu’il va falloirmotiver, chaque entité participante pourra apporter les ressources selonsa volonté. Nous imaginons notamment que certains services de veille oucertains industriels implantés dans les deux pays pourront trouver unintérêt à participer au projet.

    Il convient aussi de répertorier les ressourcesgratuites existantes, et après accord de leur propriétaire légal, deles inclure dans ce dictionnaire. Les équipes plus techniques pourrontpar exemple essayer de proposer des solutions pour fusionner différentesressources, ou pour écrire des programmes d’aide à la confection deces dictionnaires.

  2. Utilisateurs
  1. Acteurs
Initiateurs:Participations au 4 AvrilSoutien
    1. Propriété intellectuelle
La propriété intellectuelle du projet est fonction de l'origine desdonnées utilisées. Une large partie reviendra aux projets utilisés telsque ceux de Jim Breen (JMDict) et du GETA-CLIPS et LIRMM (DictionnaireFrançais Anglais ), d'autres seront spécifiques à des listes terminologiquesréduites (dictionnaire Français-Japonais des Télécom de M. Paul), lereste sera celle des institutions sous-tendant le projet papillon lui-même(CLIPS, NII).
  1. Etapes
  1. Le contenu linguistique des entrées
  2. Le format électronique de base et les formatséventuels de travail
  1. Les questions de propriété intellectuelle
  1. Contacts:
Dr. Emmanuel Planas

Nippon Telegraph and Telephone (chercheurassocié 1998-2000)

Cyber Solutions Laboratory

2-4 Hikaridai, Seika-cho, Soraku-gun

Kyoto 619-0237, Japan

Tel: +81 (0)774-93-5925

Fax: +81 (0)774-98-3570

Courriel: planas@soy.kecl.ntt.co.jp

http://www.kecl.ntt.co.jp/icl/mtg/members/planas/index.html

Groupe d'Etudes pour la Traduction Automatique(GETA, chercheur associé 2000-2005)

Laboratoire de Communication Languagièreet Interface Personne-Système (CLIPS)

Université Joseph Fourier

GETA, CLIPS, IMAG-campus, BP53, 385 ruede la Bibliothèque,

38041 Grenoble Cedex 9, France

Fax: +33-(0)4-7651-4405

Courriel: planas@imag.fr

http://clips.imag.fr/personnes.html

Frederic Andres

National Institute of Informatics (NII),

National Center of Science,

2-1-2 Hitotsubashi, Chiyoda-ku,

Tokyo 101-8430, Japan

Tel: +81 (0)3-4212-2000

E-mail: andres@nii.ac.jp