<html> <head>    <title></title>    <meta name="GENERATOR" content="Mozilla/3.0b4Gold (Unix)"> </head> <body text="#000000" bgcolor="#FFFFFF" link="#0000EE" vlink="#551A8B" alink="#FF0000"> <h1 align=center>Le codage TEI des dictionnaires lectroniques</h1> <center>Nancy Ide (1, 2) et Jean Vronis (2)</center> <br> <br> <br> <br>(1) Department of Computer Science <br>    Vassar College  <br>    Poughkeepsie, New York 12601 (U.S.A.) <br> <br>(2) Laboratoire Parole et Langage <br>    Universit de Provence et CNRS <br>    29, Avenue Robert Schuman, 13621 Aix-en-Provence Cedex 1 (France) <br> <br> <br> <br><h2>1. Introduction</h2> <br> <br> <br>La tche du groupe de travail de la TEI sur les dictionnaires [1] tait de  <br>fournir un ensemble de conventions au niveau des entres de dictionnaires, la  <br>structuration de niveau suprieur (page de titre, matriau introductif,  <br>divisions en noms communs et en noms propres, en langues dans les dictionnaires  <br>bilingues, etc.) tant de mme nature que dans bien d'autres types de textes. Le  <br>groupe de travail a par ailleurs limit son champ aux dictionnaires occidentaux  <br>modernes, et a test ses recommendations principalement sur des dictionnaires de  <br>taille moyenne, tels que le Petit Larousse, le Petit Robert ou le Collins  <br>English Dictionary. Les dictionnaires anciens et les dictionnaires &quot;monumentaux&quot;  <br>tels que l'Oxford English Dictionary ou le Trsor de la Langue Franaise ont t  <br>volontairement laisss de ct pour la premire dition des Guidelines  <br>(Sperberg-McQueen et Burnard, 1994). <br> <br> <br><h2>2. Composants de base</h2> <br> <br>De nombreux types d'informations clairement identifiables figurent dans les  <br>entres de dictionnaires: informations sur la forme du mot (orthographe,  <br>prononciation, csure, etc.), informations grammaticales (catgorie  <br>grammaticale, sous-catgorie, morphologie, etc.), dfinitions ou traductions,  <br>tymologie, renvois, sous-entres, notes d'usage, exemples, etc. <br> <br>La premire tape dans la ralisation d'une Dfinition du Type de Document (DTD)  <br>pour les dictionnaires est la spcification d'une typologie des lments  <br>atomiques qui figurent dans les entres, accompagne d'une nomenclature adquate  <br>pour ces lments. Les lments atomiques sont ceux qui constituent les champs  <br>de base spcifiques aux entres de dictionnaire. Ces lments ne contiennent  <br>aucun autre champ d'information: leur contenu est une squence de caractres,  <br>ventuellement accompagne d'lments communs  tous les types de textes (dates,  <br>etc.). L'identification des champs fondamentaux d'information dans les  <br>dictionnaires avait reu l'attention de nombreux chercheurs dans le pass et  <br>malgr des dsaccords sur les dtails, les champs d'information fondamentaux  <br>taient relativement bien tablis avant le travail de la TEI (voir par exemple  <br>Danlex, 1987, Amsler et Tompa, 1988). <br> <br>Certains lments de dictionnaires sont complexes, c'est--dire constitus de  <br>groupes d'lments atomiques. Considrons, par exemple, la dfinition de la  <br>figure 1. <br> <br> <br>---figure 1: approximativement------------------------------------------- <br> <br> <br>    CRAWLER [kroler] v.i. Nager le crawl         [Petit Larousse] <br> <br> <br>------------------------------------------------------------------------- <br> <br>Cette entre comporte trois parties distinctes: les informations relatives aux  <br>formes crite et parle de la vedette, les informations grammaticales, et la  <br>dfinition. Dans de nombreux cas, il convient de rendre explicites ces  <br>associations ou regroupements;  cette fin, nous avons dfini un ensemble de  <br>balises groupantes permettant le marquage de relations logiques entre lments.  <br>Ainsi, le codage de l'entre ci-dessus serait <br> <br>&lt;entry&gt; <br>  &lt;form&gt; <br>    &lt;orth&gt;crawler&lt;/orth&gt; <br>    &lt;pron&gt;krole&lt;/pron&gt; <br>  &lt;/form&gt; <br>  &lt;gramGrp&gt; <br>    &lt;pos&gt;v&lt;/pos&gt; <br>    &lt;subc&gt;i&lt;/subc&gt; <br>  &lt;/gramGrp&gt; <br>  &lt;def&gt;Nager le crawl&lt;/def&gt; <br>&lt;/entry&gt; <br> <br> <br>La premire information comporte deux sous-parties, marques par les balises  <br>&lt;orth&gt; et &lt;pron&gt;; la balise &lt;form&gt; assure leur association logique. De la mme  <br>manire, le composant &lt;gramGrp&gt; comporte deux sous-composants, la catgorie  <br>grammaticale  (&lt;pos&gt; pour &quot;part-of-speech&quot;) et les informations de  <br>sous-catgorisation (&lt;subc&gt;). La dfinition est un composant atomique, constitu  <br>du seul texte de dfinition, sans structure interne. <br> <br> <br><h2>3. Structure hirarchique et porte</h2> <br> <br> <br>D'une faon quasi-systmatique, les entres de dictionnaires sont structures de  <br>faon hirarchique: une entre comporte souvent deux ou plusieurs sous-parties,  <br>chacune correspondant  des homographes grammaticaux, qui peuvent se subdiviser  <br> nouveau en sens et sous-sens (figure 2). Dans certains cas, un ou plusieurs  <br>niveaux peuvent tre absents (par exemple, le niveau des homographes  <br>grammaticaux).  <br> <br> <br>---figure 2 : approximativement----------------------------------------- <br> <br>roughcast ('r^f,ca:st) n. 1. a coarse plaster used to cover the surface of an  <br>external wall. 2. any rough or preliminary form, model, etc. ~adj. 3. covered  <br>with or denoting roughcast. ~vb. -casts, -casting, -cast. 4. to apply roughcast  <br>to (a wall, etc.). 5. to prepare in rough. 6. (tr.) another word for rough-hew.  <br>--roughcaster n. <br> <br>[Collins English Dictionary] <br>------------------------------------------------------------------------ <br> <br> <br>L'organisation hirarchique des dictionnaires permet la factorisation des  <br>informations sur certains niveaux de l'hirarchie. Les informations ont donc une  <br>porte, comme les variables d'un langage informatique structur en blocs tel que  <br>Pascal: les informations prcises  un niveau donn de l'hirarchie  <br>s'appliquent  tous les niveaux embots. Dans les dictionnaires, les  <br>informations relatives  la prononciation,  la forme orthographique,  la  <br>catgorie grammaticale, etc. sont gnralement mises en facteur  la tte de  <br>l'entre car elles s'appliquent aux diffrents sens. Par exemple, dans l'entre  <br>&quot;roughcast&quot; de la figure 2, l'orthographe et la prononciation s'appliquent   <br>l'entre entire, &quot;nom&quot; s'applique aux trois premiers sens, etc. Le codage SGML  <br>reflte cette structure: <br> <br> <br>&lt;entry&gt; <br>  &lt;form&gt; <br>    &lt;orth&gt;roughcast&lt;/orth&gt; <br>    &lt;pron&gt;'r^f,ca:st&lt;/pron&gt; <br>  &lt;/form&gt; <br>  &lt;hom&gt; <br>    &lt;gramGrp&gt; <br>      &lt;pos&gt;n&lt;/pos&gt; <br>    &lt;/gramGrp&gt; <br>    &lt;sense n='1'&gt; <br>      &lt;def&gt;a coarse plaster used to cover...&lt;/def&gt; <br>    &lt;/sense&gt; <br>    &lt;sense n='2'&gt; <br>      &lt;def&gt;any rough or preliminary form, model, etc.&lt;/def&gt; <br>    &lt;/sense&gt; <br>  &lt;/hom&gt; <br>  &lt;hom&gt; <br>    &lt;gramGrp&gt; <br>      &lt;pos&gt;adj&lt;/pos&gt; <br>    &lt;/gramGrp&gt; <br>    &lt;sense n='3'&gt; <br>      &lt;def&gt;covered with or denoting roughcast.&lt;/def&gt; <br>    &lt;/sense&gt; <br>  &lt;/hom&gt; <br>  .... <br> <br>&lt;/entry&gt; <br> <br> <br><h2>4. Problmes et difficults</h2> <br> <br>Les dictionnaires figurent parmi les types de textes les plus complexes traits  <br>par la TEI. Chaque entre d'un dictionnaire est un objet fortement structur,  <br>dans lequel de nombreux mcanismes d'abrviation et d'organisation typographique  <br>permettent une prsentation condense des informations. De plus, la structure  <br>des entres de dictionnaires varie considrablement d'un dictionnaire  l'autre  <br>et dans un mme dictionnaire: il semble presque que l'on puisse trouver  <br>n'importe quel type d'information  n'importe quelle position d'une entre dans  <br>un dictionnaire ou un autre. Toutefois, malgr ces variations, les lecteurs  <br>humains sont capables d'interprter relativement aisment les entres de  <br>dictionnaire, et ce, le plus souvent sans consulter les explications  <br>introductives. Il est donc clair qu'il existe un certain nombre de principes et  <br>de rgularits sous-jacentes, qu'une norme de codage se doit de saisir. La  <br>premire difficult  laquelle a t confront le groupe de travail sur les  <br>dictionnaires a donc t la dfinition d'un schma de codage suffisamment  <br>gnral pour couvrir la plupart des dictionnaires, tout en permettant de dcrire  <br>les particularits de chacun. Ce conflit entre gnralit et pouvoir descriptif  <br>existe pour de nombreux types de textes, mais il semble atteindre son point  <br>culminant dans le cas des dictionnaires. <br> <br>Un deuxime type de problme de codage provient du fait que les dictionnaires,  <br>contrairement  la plupart des autres types de textes, sont  la fois des textes  <br>et des bases de donnes [2]. Les dictionnaires ont bien videmment l'apparence  <br>de textes et possdent de nombreuses caractristiques communes  tous les types  <br>de textes. Nanmoins, les utilisateurs ne lisent pas en principe pas les  <br>dictionnaires de manire linaire de A  Z comme ils le font pour la plupart des  <br>textes, mais accdent  des entres  partir d'une cl (la vedette) dans le but  <br>de rcuprer divers champs d'information associs  cette cl (prononciation,  <br>information grammaticale, tymologie, dfinitions, etc.). Cet accs non linaire  <br>est typique de l'accs aux bases de donnes. Il est encore plus clair avec les  <br>dictionnaires lectroniques, qui offrent d'autres modes d'accs: l'utilisateur  <br>peut accder  tous les mots dont la dfinition contient un mot donn,  tous  <br>les mots remplissant un certain nombre de critres (par exemple, tous les verbes  <br>relevant du domaine nautique, apparaissant avant 1900), etc. En outre, si  <br>l'affichage sur l'cran ressemble toujours plus ou moins  du texte, la  <br>reprsentation interne est rarement celle d'un texte linaire. <br> <br>Les dictionnaires prsentent donc une forte dualit entre leur structure de  <br>surface (le texte) et leur structure profonde (le contenu informationnel). Une  <br>grande partie des informations de la structure profonde n'est pas explicite dans  <br>la structure de surface et ncessite la connaissance des conventions  <br>d'abrviation et de prsentation des dictionnaires. Par exemple, dans l'entre  <br>&quot;roughcast&quot; ci-dessus, la structure de surface --&nbsp;c'est--dire la position  <br>linaire des divers lments&nbsp;-- ne dit pas explicitement que &quot;nom&quot; (n.) ne  <br>s'applique qu'aux trois premiers sens, etc. <br> <br>La dualit structurelle des dictionnaires est source de difficults de codage  <br>par le conflit qu'elle entrane entre deux vues diffrentes du dictionnaire. Un  <br>utilisateur donn peut prfrer le codage d'un point de vue textuel qui conserve  <br>la structure de surface (afin, par exemple, de rester fidle  une version  <br>imprime pr-existante). Cependant, le type d'infrence ncessaire  la  <br>rcupration de la structure informationnelle profonde  partir de la structure  <br>de surface peut tre difficile, voire impossible, pour un ordinateur. Si un  <br>utilisateur s'intresse  la vue &quot;base de donnes&quot; (par exemple afin de  <br>visualiser et manipuler le dictionnaire  l'aide d'outils informatiques), il  <br>aura besoin d'un codage explicite des informations qui ne sont qu'implicites  <br>dans la structure de surface. Dans certains cas, les utilisateurs souhaiteraient  <br>mme avoir accs aux deux vues simultanment. Etant donn que les deux vues du  <br>dictionnaire sont souvent en conflit, leurs codages peuvent tre trs  <br>diffrents. Un deuxime dfi important pour le groupe de travail de la TEI sur  <br>les dictionnaires tait de permettre le codage des deux vues, soit  <br>indpendamment, soit simultanment. <br> <br>Le lecteur pourra trouver une discussion plus approfondie de ces difficults  <br>dans Ide et Vronis (1995). <br> <br> <br> <br><h2>5. Conclusion</h2> <br> <br>Les propositions de la TEI ont t testes par le groupe de travail sur de  <br>nombreuses entres de dictionnaires dans diffrentes langues. Plusieurs quipes  <br>dans le monde sont  l'heure actuelle en train de les appliquer  la cration ou  <br> la rtro-conversion des dictionnaires les plus varis, et il est probable que  <br>cette utilisation en grandeur relle aboutira  des propositions de rvision et  <br>peut-tre de simplification ou d'harmonisation. De mme, l'extension aux  <br>dictionnaires anciens, ou aux gros dictionnaires comme l'Oxford English  <br>Dictionary ou le Trsor de la Langue Franaise, ne manquera pas de faire  <br>apparatre de nouveaux problmes et difficults. Les principes de base de la TEI  <br>semblent suffisamment robustes pour supporter une telle extension, mais il est  <br>concevable que de nouvelles balises ou de nouveaux attributs doivent tre  <br>dvelopps. <br> <br>Dans de nombreux cas, il semble que les limites du langage SGML aient t  <br>atteintes: si puissant et utile qu'il soit, il a t conu pour la  <br>reprsentation de documents simples, tels que manuels techniques ou  <br>correspondance commerciale, et la complexit de textes tels que les  <br>dictionnaires (ou les textes littraires en gnral: manuscrits anciens,  <br>ditions critiques, etc.) semble indiquer la ncessit d'un langage de  <br>reprsentation de donnes de nouvelle gnration, dot d'une plus grande  <br>flexibilit et d'une plus grande capacit expressive. Ne serait-il pas paradoxal  <br>que des proccupations lexicographiques et littraires contribuent  l'mergence  <br>de nouveaux langages informatiques? <br> <br> <br>Notes <br> <br>[1]     Le groupe de travail sur les dictionnaires tait compos de Robert Amsler,  <br>Susan Armstrong-Warwick, Nicoletta Calzolari, Carol Van Ess-Dykema, John Fought,  <br>Nancy Ide, W. Frank Tompa, et Jean Vronis. <br> <br>[2]     Il est  noter que, malgr le fait qu'une base de donnes puisse tre  <br>gnre a partir des informations de n'importe quel texte, un dictionnaire est  <br>une base de donnes par destination. <br> <br> <br> <br><h2>R&eacute;frences</h2> <br> <br>Robert Amsler, Frank W. Tompa, An SGML-Based Standard for English Monolingual  <br>Dictionaries.  In Information in Text: Fourth Annual Conference of the UW Center  <br>for the New Oxford English Dictionary, University </body> </html> 
