<HTML> <HEAD>   <META NAME="GENERATOR" CONTENT="Adobe PageMill 3.0 Win">   <META NAME="keywords" CONTENT="terminology extraction, aligned corpus,French English corpus,   verbs, nouns, scientific corpus, phraseology, LSP, LGP, scientific translation, extraction terminologique,   extraction de terminologie, extraction automatique de terminologie, corpus franais anglais, verbes,   syntagmes nominaux, syntagme nominal, phras&eacuteologie, LEXTER, TRINITY,   langue de sp&eacutecialit&eacute, INRA, traduction en anglais, r&eacutedaction en anglais">   <TITLE>Approche phras&eacute;ologique d'une extraction automatique de terminologie dans un corpus scientifique bilingue align&eacute;</TITLE> </HEAD> <BODY BGCOLOR="#ffffff">  <P><CENTER><A NAME="R"></A><B><FONT SIZE="+2">Approche phras&eacute;ologique d'une extraction automatique de terminologie dans un corpus scientifique bilingue align&eacute;</FONT></B></CENTER></P>  <P><CENTER><BR>     C&eacute;cile Fr&eacute;rot <FONT SIZE="-2">1</FONT><A HREF="#*">*</A>, G&eacute;raldine      Rigou <FONT  SIZE="-2">2</FONT>, Annik Lacombe <FONT SIZE="-2">2<BR>     1 </FONT>Universit&eacute; de Paris VII, 2 place Jussieu, 75251 Paris Cedex      05<BR> <FONT SIZE="-2">2</FONT> INRA,-CRJ Unit&eacute; Centrale de Documentation, Secteur linguistique, <BR> 78352 Jouy-en-Josas Cedex<BR> </CENTER></P>  <P><B><FONT SIZE="+1">R&eacute;sum&eacute;</FONT></B><BR CLEAR="ALL"><BR> Cet article pr&eacute;sente une analyse des r&eacute;sultats d'extraction automatique de terminologie dans un corpus align&eacute; fran&ccedil;ais-anglais. Cette exp&eacute;rience, r&eacute;alis&eacute;e par le service linguistique de l'Institut National de la Recherche Agronomique, s'inscrit dans un projet de d&eacute;veloppement d'outil d'aide &agrave; la r&eacute;daction scientifique en anglais pour des chercheurs francophones. Le logiciel LEXTER a extrait des candidats termes dans le corpus fran&ccedil;ais, constitu&eacute; de textes scientifiques. L'outil TRINITY a rep&eacute;r&eacute; dans la partie anglaise du corpus&nbsp;-&nbsp;traductions des textes fran&ccedil;ais&nbsp;- les &eacute;quivalents de ces candidats termes. Les r&eacute;sultats de l'extraction, pr&eacute;sent&eacute;s sous la forme d'une base de donn&eacute;es fonctionnant gr&acirc;ce &agrave; une interface hypertextuelle de validation, ont &eacute;t&eacute; exploit&eacute;s par des traducteurs-terminologues. Les probl&egrave;mes pos&eacute;s par la traduction et la r&eacute;daction de textes scientifiques en anglais pour des chercheurs francophones ont servi de point de d&eacute;part &agrave; l'exp&eacute;rience. Lors de l'exploitation des r&eacute;sultats, nous avons adopt&eacute; une approche phras&eacute;ologique, pla&ccedil;ant l'extension du terme et le verbe au centre de nos pr&eacute;occupations.</P>  <P><B><FONT SIZE="+1">1. Introduction</FONT></B><BR CLEAR="ALL"><BR> En d&eacute;pit des nombreux travaux terminographiques men&eacute;s pour recenser le vocabulaire des domaines sp&eacute;cialis&eacute;s, il subsiste des lacunes importantes, notamment dans les domaines &eacute;mergents de la connaissance. Les ressources terminologiques existantes ne couvrent que partiellement les besoins des traducteurs et r&eacute;dacteurs sp&eacute;cialis&eacute;s car elles se limitent le plus souvent au recensement de termes (simples ou complexes), excluant la composante phras&eacute;ologique. Or c'est pr&eacute;cis&eacute;ment l'environnement linguistique du terme - cette extension syntagmatique du terme &agrave; la phrase (BLAIS, 1993) qui pose probl&egrave;me. Et la ma&icirc;trise de cet &quot;&nbsp;environnement&nbsp;&quot; s'av&egrave;re indispensable au langagier s'il veut respecter le niveau de discours des sp&eacute;cialistes, d'o&ugrave; la n&eacute;cessit&eacute; d'&eacute;tudier d'autres cat&eacute;gories grammaticales que les noms, &agrave; savoir les verbes, adverbes et adjectifs. Malgr&eacute; un int&eacute;r&ecirc;t grandissant pour les probl&egrave;mes li&eacute;s au rep&eacute;rage et &agrave; la consignation de la phras&eacute;ologie dans les langues de sp&eacute;cialit&eacute;, les traducteurs ont peu d'ouvrages &agrave; leur disposition, que ce soit sur support papier ou &eacute;lectronique.<BR CLEAR="ALL"><BR> La construction de ressources terminologiques est aujourd'hui facilit&eacute;e par les outils d'acquisition de terminologie &agrave; partir de corpus, tels que les logiciels d'extraction de terminologie utilis&eacute;s dans l'&eacute;laboration de terminologies multilingues (cf. &quot;&nbsp;Construction d'un lexique bilingue des droits de l'homme &agrave; partir de l'analyse automatique d'un corpus align&eacute;&nbsp;&quot;, BOURIGAULT et al., 1999). Ces outils apportent une aide &agrave; l'identification, non seulement de termes &agrave; vocation nominale, mais aussi de combinaisons linguistiques propres &agrave; une communaut&eacute; de sp&eacute;cialistes, qui incluent d'autres cat&eacute;gories grammaticales (verbes, adverbes et adjectifs). En mettant l'accent sur le caract&egrave;re usuel de ces combinaisons, d&eacute;sign&eacute;es dans notre &eacute;tude sous le terme de collocations, nous nous inspirons de PESANT et THIBAULT (1993) qui les d&eacute;finissent comme des unit&eacute;s linguistiques de cat&eacute;gories diff&eacute;rentes qui apparaissent ensemble dans un &eacute;nonc&eacute; et forment une combinaison d'usage. Citons, &agrave; titre d'exemples&nbsp;: <I>bact&eacute;ries lactiques d'int&eacute;r&ecirc;t technologique, truite marqu&eacute;e par &eacute;metteur radio, admettre une hypoth&egrave;se</I>.<BR CLEAR="ALL"><BR> L'exp&eacute;rience d&eacute;crite ici pr&eacute;sente les r&eacute;sultats d'une extraction automatique de terminologie dans un corpus bilingue align&eacute;. A travers l'&eacute;valuation des performances des logiciels utilis&eacute;s, l'objectif est de d&eacute;terminer leur apport dans le cadre d'une application pr&eacute;cise au sein du service linguistique de l'Institut National de la Recherche Agronomique (INRA) r&eacute;pondant &agrave; des besoins sp&eacute;cifiques.</P>  <P><BR> <B><FONT SIZE="+1">2. Extraction terminologique</FONT></B><BR CLEAR="ALL"><BR> <B><I>2.1. Cadre de l'exp&eacute;rience</I></B><BR CLEAR="ALL"><BR> L'exp&eacute;rience a &eacute;t&eacute; men&eacute;e au sein du service linguistique de l'INRA, en collaboration avec Didier Bourigault , concepteur de LEXTER (Logiciel d'EXtraction automatique de TERminologie), et David Hull , concepteur de TRINITY. Elle s'inscrit dans le cadre de l'enrichissement de la base de donn&eacute;es terminologiques aliment&eacute;e par les traducteurs du service et, plus largement, dans un projet de d&eacute;veloppement d'outil informatis&eacute; d'aide &agrave; la r&eacute;daction en anglais pour les chercheurs francophones de l'institut. En effet, &agrave; l'heure actuelle, une tr&egrave;s large majorit&eacute; des publications scientifiques sont en anglais. Publier repr&eacute;sente pour les chercheurs un enjeu important, notamment dans les domaines &eacute;mergents &agrave; forte concurrence, et le niveau d'anglais est un des crit&egrave;res d'acceptation de leurs publications. Or les chercheurs, s'ils ma&icirc;trisent en partie la terminologie de leur domaine, rencontrent de grandes difficult&eacute;s, lors de la r&eacute;daction, &agrave; &eacute;noncer clairement leurs id&eacute;es en anglais et &agrave; produire un texte coh&eacute;rent d'un point de vue syntaxique. A l'INRA, ils b&eacute;n&eacute;ficient de l'assistance linguistique d'une &eacute;quipe de traducteurs pour r&eacute;diger leurs articles. Les traducteurs sont fr&eacute;quemment confront&eacute;s au manque de donn&eacute;es terminologiques dans les domaines de recherche abord&eacute;s &agrave; l'INRA. Pour pallier ces difficult&eacute;s, ils ont recours &agrave; l'interrogation de bases de donn&eacute;es bibliographiques qui constituent de gigantesques corpus d'o&ugrave; ils extraient la terminologie et la phras&eacute;ologie qui ne figurent dans aucun dictionnaire.<BR CLEAR="ALL"><BR> L'exp&eacute;rience d&eacute;crite ici vise &agrave; recenser la terminologie pr&eacute;sente dans un corpus de traductions en validant les r&eacute;sultats d'une extraction automatique. En analysant les syntagmes nominaux (SN) extraits par LEXTER, nous avons pu identifier les extensions de ces termes. Enfin, &agrave; partir des verbes et des noms extraits en fran&ccedil;ais, nous avons recens&eacute; des formes verbales fr&eacute;quemment employ&eacute;es par les chercheurs.<BR CLEAR="ALL"><BR> <B><I>2.2. Pr&eacute;paration du corpus</I></B><BR CLEAR="ALL"><BR> L'extraction terminologique a port&eacute; sur un corpus bilingue align&eacute; constitu&eacute; de textes traduits par le service linguistique (fran&ccedil;ais langue source et anglais langue cible). Le corpus compte environ 340 000 mots et regroupe, par ordre d&eacute;croissant, des articles de recherche, des articles de vulgarisation&nbsp;-&nbsp;communiqu&eacute;s de presse et articles destin&eacute;s au grand public&nbsp;-, un manuel d'utilisation de logiciel, des plaquettes de pr&eacute;sentation, un contrat de licence et des r&eacute;sum&eacute;s de monographies. Ces textes couvrent plusieurs domaines dont les plus repr&eacute;sent&eacute;s sont l'agronomie, les sciences du sol, l'hydrobiologie, l'environnement, la biom&eacute;trie et la mod&eacute;lisation, la g&eacute;n&eacute;tique et l'am&eacute;lioration des plantes, la pathologie v&eacute;g&eacute;tale et la malherbologie. Une telle h&eacute;t&eacute;rog&eacute;n&eacute;it&eacute; dans la constitution du corpus refl&egrave;te le contexte de travail des traducteurs de l'INRA qui r&eacute;pondent aux demandes de tous les secteurs scientifiques de l'institut et travaillent sur l'ensemble des genres textuels.<BR CLEAR="ALL"><BR> L'alignement du corpus a &eacute;t&eacute; r&eacute;alis&eacute; manuellement. Il a consist&eacute; &agrave; mettre en parall&egrave;le les textes sources et cibles de mani&egrave;re &agrave; les aligner au niveau des paragraphes. Nous avons &eacute;galement supprim&eacute; tout &eacute;l&eacute;ment susceptible de g&eacute;n&eacute;rer du bruit lors de l'extraction (r&eacute;f&eacute;rences bibliographiques, symboles math&eacute;matiques, dates, etc.).<BR CLEAR="ALL"><BR> <B><I>2.3. Traitements informatiques</I></B><BR CLEAR="ALL"><BR> Des outils Xerox ont &eacute;t&eacute; utilis&eacute;s pour aligner le corpus au niveau des phrases et proc&eacute;der &agrave; son &eacute;tiquetage.<BR CLEAR="ALL"><BR> <I>2.3.1. LEXTER</I><BR CLEAR="ALL"><BR> Ce logiciel a extrait du corpus fran&ccedil;ais &eacute;tiquet&eacute; des candidats termes (CT)&nbsp;-&nbsp;des mots ou s&eacute;quences de mots susceptibles d'&ecirc;tre des termes ou des collocations. LEXTER proc&egrave;de &agrave; un d&eacute;coupage bas&eacute; sur le rep&eacute;rage de fronti&egrave;res syntaxiques (signe de ponctuation, verbe conjugu&eacute;, conjonction de subordination, etc.) afin d'identifier des groupes nominaux maximaux. Ces groupes nominaux sont ensuite d&eacute;compos&eacute;s afin d'identifier une t&ecirc;te et une expansion (BOURIGAULT, 1994). LEXTER a r&eacute;cemment &eacute;t&eacute; enrichi d'un module d'extraction de verbes simples, ce qui a facilit&eacute; le rep&eacute;rage manuel de syntagmes verbaux dans le corpus.<BR CLEAR="ALL"><BR> <I>2.3.2. TRINITY</I><BR CLEAR="ALL"><BR> TRINITY est un syst&egrave;me (non commercialis&eacute;) qui utilise un algorithme statistique pour aligner les mots dans un corpus bilingue afin de construire automatiquement un lexique. L'approche adopt&eacute;e est la suivante&nbsp;:<BR> - rep&eacute;rage automatique des candidats termes dans la langue source et validation manuelle,<BR> - extraction automatique des candidats traduction dans la langue cible, puis validation manuelle.<BR CLEAR="ALL"><BR> Le syst&egrave;me utilise l'extraction des termes en langue source et l'alignement statistique au niveau des mots dans le corpus bilingue pour identifier une s&eacute;quence de mots en langue cible susceptible de contenir la traduction du candidat terme. Il n'y a pas d'&eacute;tape d'alignement sp&eacute;cifique de terme &agrave; terme (HULL, 2001).<BR> Dans le cadre de notre exp&eacute;rience, TRINITY s'est bas&eacute; sur les CT extraits par LEXTER pour calculer des probabilit&eacute;s d'&eacute;quivalence de s&eacute;quences de mots dans la langue cible.<BR CLEAR="ALL"><BR> <B><I>2.4. R&eacute;sultats : interface hypertextuelle de validation HTL</I></B><BR CLEAR="ALL"><BR> LEXTER g&eacute;n&egrave;re en sortie une liste de CT appartenant &agrave; diff&eacute;rentes cat&eacute;gories grammaticales (adjectif, adverbe, nom et verbe) ainsi que des syntagmes adjectivaux et nominaux. L'interface de validation propos&eacute;e par LEXTER permet d'acc&eacute;der &agrave; la liste des CT en fonction de leur cat&eacute;gorie et propose un affichage par fr&eacute;quence d&eacute;croissante ou par ordre alphab&eacute;tique (<A NAME="annexeA"></A>cf. <A HREF="annexeA.htm">Annexe A</A>). Il est possible de visualiser les contextes dans lesquels les CT figurent. Lorsque TRINITY fournit des &eacute;quivalents, les CT et les termes cibles propos&eacute;s (TCP) sont pr&eacute;sent&eacute;s dans leur contexte align&eacute; (<A NAME="annexeB"></A>cf. <A HREF="annexeB.htm">Annexe B</A>). Le nombre d'occurrences appara&icirc;t pour chaque donn&eacute;e. Pour chaque SN, il est possible d'acc&eacute;der aux descendants du SN, c'est-&agrave;-dire aux CT dans lesquels le SN appara&icirc;t en position de t&ecirc;te syntaxique ou d'expansion syntaxique. L'interface offre la possibilit&eacute; d'attribuer un bar&egrave;me de validit&eacute; que nous avons d&eacute;fini en tenant compte des crit&egrave;res suivants&nbsp;: d&eacute;coupage (fran&ccedil;ais et anglais), difficult&eacute;s traductionnelles (non-&eacute;quivalence stricte de terme &agrave; terme impliquant un changement de cat&eacute;gories grammaticales, voire une modification de l'ordre des mots) et pertinence terminologique (le CT constitue-t-il une unit&eacute; terminologique&nbsp;?). Enfin, lorsqu'un CT est jug&eacute; pertinent, il peut &ecirc;tre directement enregistr&eacute; dans un lexique propos&eacute; par l'interface HTL.</P>  <P><BR> <B><FONT SIZE="+1">3. Analyse des r&eacute;sultats</FONT></B><BR CLEAR="ALL"><BR> <B><I>3.1. Traitement des SN</I></B><BR CLEAR="ALL"><BR> <I>3.1.1. Cr&eacute;ation de fiches terminologiques</I><BR CLEAR="ALL"><BR> Le lexique comprend les champs suivants : trace source (le CT tel qu'il appara&icirc;t dans le corpus), trace cible (le TCP tel qu'il appara&icirc;t dans le corpus), entr&eacute;e fran&ccedil;aise (forme retenue du CT), &eacute;quivalent anglais (forme retenue du TCP) et commentaire. Nous avons modifi&eacute; la structure du lexique afin de consigner d'autres donn&eacute;es utiles au traducteur ou au chercheur. Nous avons cr&eacute;&eacute; une fiche reprenant les champs de la base de donn&eacute;es terminologiques r&eacute;guli&egrave;rement aliment&eacute;e par les traducteurs du service. Nous avons conserv&eacute; certains champs de la fiche (<I>Terme, Contexte, Domaine, Descripteur, Note linguistique</I>) en y apportant certaines modifications&nbsp;: ajout de deux champs collocation (<I>Collocation nominale</I> et <I>Collocation verbale</I>), suppression du champ D&eacute;finition (<A NAME="annexeC"></A>cf. <A HREF="annexeC.htm">Annexe C</A>). L'objectif ici n'est pas de cr&eacute;er des d&eacute;finitions mais d'apporter quelques informations qui facilitent la compr&eacute;hension du terme gr&acirc;ce &agrave; la recherche d'&eacute;l&eacute;ments d&eacute;finitoires. Notons que cette recherche n'a g&eacute;n&eacute;r&eacute; qu'un nombre r&eacute;duit de contextes. Le type d'articles dont est majoritairement constitu&eacute; le corpus peut expliquer ce faible recensement&nbsp;: les articles de recherche sont publi&eacute;s dans le cadre de la communication entre sp&eacute;cialistes et les concepts expos&eacute;s y sont rarement d&eacute;finis.<BR CLEAR="ALL"><BR> Nous avons &eacute;galement rajout&eacute; deux champs <I>Variante</I>. Les r&eacute;sultats de l'extraction n'ont cependant permis d'identifier que tr&egrave;s peu de variantes synonymiques, et c'est le traducteur-terminologue qui a aliment&eacute; ces champs gr&acirc;ce &agrave; sa propre connaissance des domaines. Cette faible variation pourrait s'expliquer par l'h&eacute;t&eacute;rog&eacute;n&eacute;it&eacute; des domaines et la pr&eacute;dominance des articles de recherche dans le corpus.<BR CLEAR="ALL"><BR> <I>3.1.2. Niveaux d'analyse</I><BR CLEAR="ALL"><BR> Lors de la s&eacute;lection des SN, les niveaux d'analyse &agrave; consid&eacute;rer sont d'ordre terminologique, traductionnel ou r&eacute;dactionnel, en fonction des besoins sp&eacute;cifiques du traducteur et du chercheur.<BR CLEAR="ALL"><BR> Les besoins du traducteur concernent l'utilisation de la bonne terminologie du domaine, rendue complexe par la grande diversit&eacute; des th&eacute;matiques &eacute;tudi&eacute;es, et des tournures linguistiques, propres &agrave; chaque sp&eacute;cialit&eacute;, qui refl&egrave;tent les pratiques langagi&egrave;res des chercheurs. Les comp&eacute;tences linguistiques et scientifiques du traducteur d&eacute;pendent de son exp&eacute;rience (d&eacute;butant, confirm&eacute;, sous-traitant), ce qui a influenc&eacute; la s&eacute;lection des SN (recensement de termes plus ou moins sp&eacute;cialis&eacute;s). Le traducteur a &eacute;galement besoin d'informations lui permettant d'acc&eacute;der au concept, d'o&ugrave; le recensement d'&eacute;l&eacute;ments d&eacute;finitoires.<BR CLEAR="ALL"><BR> Les besoins du chercheur se situent plus &agrave; un niveau phras&eacute;ologique que terminologique. Il rencontre de grandes difficult&eacute;s &agrave; &eacute;noncer clairement ses id&eacute;es en anglais, et ce, pour deux raisons principales : sa formation en langues est souvent insuffisante et lorsqu'il r&eacute;dige en anglais, il se d&eacute;tache difficilement de la syntaxe fran&ccedil;aise, d'o&ugrave; les risques de calque&nbsp;; la phras&eacute;ologie lui fait cruellement d&eacute;faut, m&ecirc;me pour des tournures plus g&eacute;n&eacute;rales (d'o&ugrave; l'int&eacute;r&ecirc;t port&eacute; dans cette exp&eacute;rience au recensement de syntagmes verbaux de la langue g&eacute;n&eacute;rale, telles que <I>&eacute;mettre une hypoth&egrave;se, mener des recherches</I> ou <I>tenir compte de</I>). D'une mani&egrave;re plus g&eacute;n&eacute;rale, ses difficult&eacute;s se situent au niveau de l'encha&icirc;nement entre termes sp&eacute;cialis&eacute;s et mots de la langue usuelle. D'un point de vue th&eacute;orique, se pose la question soulev&eacute;e par PICHT (1987) concernant &quot;&nbsp;the separation of terms on the one hand and the linking elements from LGP on the other [which] may not be maintained uncritically&nbsp;&quot;.<BR CLEAR="ALL"><BR> Une fois ces besoins identifi&eacute;s, nous avons s&eacute;lectionn&eacute; les SN en tenant compte des questions que se poseraient&nbsp;:<BR> - le traducteur&nbsp;: ce SN ou cette collocation sont-ils suffisamment sp&eacute;cialis&eacute;s pour les retenir&nbsp;? Posent-ils des probl&egrave;mes de traduction&nbsp;? Dans le cas d'une collocation, est-ce l&agrave; une fantaisie de la part de l'auteur ou une expression suffisamment fig&eacute;e pour la recenser&nbsp;?<BR> - le terminologue&nbsp;: ce SN d&eacute;signe-t-il une unit&eacute; terminologique ou s'agit-il plut&ocirc;t d'une collocation&nbsp;?<BR> - le chercheur&nbsp;: quels mots utilise-t-on pour articuler logiquement les &eacute;tapes d'une exp&eacute;rience, quel verbe permet d'exprimer la relation (r&eacute;sultat, comparaison, cause &agrave; effet) qui unit deux notions&nbsp;? Quelles sont les tournures qu'utiliserait un anglophone&nbsp;? Existe-t-il une tournure sp&eacute;cifique pour communiquer telle id&eacute;e&nbsp;? Quel est l'&eacute;quivalent de ce verbe en anglais&nbsp;?<BR CLEAR="ALL"><BR> Nous avons analys&eacute; chaque SN de la mani&egrave;re suivante&nbsp;: &eacute;tude du CT, des TCP et de la productivit&eacute; en t&ecirc;te et en expansion (<A NAME="annexeD"></A>cf. <A HREF="annexeD.htm">Annexe D</A>), lecture des contextes (fran&ccedil;ais et anglais) pour recenser des &eacute;l&eacute;ments d&eacute;finitoires sur le terme et des collocations que LEXTER n'aurait pas extraites.<BR CLEAR="ALL"><BR> <I>3.1.3. Rep&eacute;rage et consignation des collocations</I><BR CLEAR="ALL"><BR> L'analyse des collocations fait ressortir les diff&eacute;rences lexicales et syntaxiques des deux langues ainsi que leur caract&egrave;re impr&eacute;visible (HEID et FREIBOTT, 1991) lors du passage du fran&ccedil;ais &agrave; l'anglais. La non-&eacute;quivalence stricte de collocation &agrave; collocation dans les deux langues a constitu&eacute; un crit&egrave;re essentiel de s&eacute;lection. Les collocations recens&eacute;es ont mis en &eacute;vidence une certaine variation dans le degr&eacute; de figement en fran&ccedil;ais et en anglais. La collocation fran&ccedil;aise <I>truite marqu&eacute;e par &eacute;metteur radio</I> ne saurait se traduire litt&eacute;ralement et implique un r&eacute;agencement syntaxique (<I>radio-tagged trout</I>). Cette collocation anglaise est marqu&eacute;e par un certain figement (aucune variabilit&eacute; dans le choix du verbe tag) que l'on ne retrouve pas dans l'exemple suivant&nbsp;: <I>bact&eacute;rie lactique d'int&eacute;r&ecirc;t technologique</I>, qui peut en effet se traduire par <I>technologically valuable lactic acid bacteria</I> ou par <I>lactic acid bacteria of technological value</I>. Une collocation donn&eacute;e dans la langue source n'est donc pas obligatoirement marqu&eacute;e par le m&ecirc;me degr&eacute; de figement dans la langue cible. La r&eacute;currence, autre crit&egrave;re de s&eacute;lection, nous a amen&eacute;es &agrave; recenser les collocations suivantes&nbsp;: <I>g&egrave;ne d'int&eacute;r&ecirc;t agronomique, arbre d'int&eacute;r&ecirc;t &eacute;conomique, mol&eacute;cule d'int&eacute;r&ecirc;t m&eacute;dical, oligo-peptide d'int&eacute;r&ecirc;t alimentaire, microorganisme d'int&eacute;r&ecirc;t industriel</I>. Ces exemples mettent en &eacute;vidence la structure <I>nom&nbsp;+&nbsp;d'int&eacute;r&ecirc;t&nbsp;+&nbsp;adjectif</I> dans laquelle nom correspond &agrave; des unit&eacute;s terminologiques plus ou moins s&eacute;mantiquement apparent&eacute;es (g&egrave;ne, arbre, mol&eacute;cule, oligo-peptide, microorganisme) tout comme les adjectifs (agronomique, &eacute;conomique, m&eacute;dical, alimentaire, industriel). Nous avons &eacute;galement mis l'accent sur les pr&eacute;positions lors de la s&eacute;lection car la traduction des combinaisons dans lesquelles elles s'int&egrave;grent sont source de nombreuses erreurs chez les chercheurs. <BR CLEAR="ALL"><BR> La principale difficult&eacute; consiste &agrave; identifier la suite d'unit&eacute;s lexicales qui distinguera un terme d'une collocation. Le passage du terme &agrave; la collocation implique un changement de niveau&nbsp;: on passe d'une organisation conceptuelle &agrave; un environnement linguistique. Le ph&eacute;nom&egrave;ne de la collocation est soumis &agrave; une variabilit&eacute; plus importante que le terme, li&eacute; &eacute;galement au style de l'auteur, au &quot;&nbsp;pouvoir de la cr&eacute;ation phras&eacute;ologique&nbsp;&quot; (BLAMPAIN, 1993). Il est difficile de savoir si une collocation est fr&eacute;quente parmi les sp&eacute;cialistes du domaine ou s'il s'agit d'une &quot;&nbsp;fantaisie&nbsp;&quot; stylistique. La basse fr&eacute;quence n'a pas &eacute;t&eacute; consid&eacute;r&eacute;e comme un crit&egrave;re d'exclusion car les domaines couverts par le corpus sont tr&egrave;s sp&eacute;cialis&eacute;s et que des chiffres tr&egrave;s bas d'occurrence peuvent correspondre &agrave; des termes fr&eacute;quemment utilis&eacute;s par les sp&eacute;cialistes (B&Eacute;JOINT et THOIRON, 1992).<BR CLEAR="ALL"><BR> La consignation des collocations implique de r&eacute;fl&eacute;chir &agrave; la d&eacute;marche du traducteur et du chercheur dont la question semble &ecirc;tre&nbsp;: <I>quels mots ou quels verbes se combinent habituellement pour exposer telle d&eacute;marche, rendre compte de tels r&eacute;sultats&nbsp;?</I> (COHEN, 1992) plut&ocirc;t que <I>quel mot ou quel verbe est habituellement employ&eacute; avec tel autre&nbsp;?</I> La notion appara&icirc;t d&egrave;s lors comme un &eacute;l&eacute;ment central et apporte quelques &eacute;l&eacute;ments de r&eacute;ponse &agrave; la question&nbsp;: vaut-il mieux que l'utilisateur ait acc&egrave;s &agrave; une collocation comprenant plusieurs notions ou alors &agrave; chaque notion s&eacute;par&eacute;ment&nbsp;?<BR CLEAR="ALL"><BR> Dans l'exemple de collocation suivant&nbsp;: <I>addition de lipides &agrave; la ration de la truie en lactation</I> le caract&egrave;re notionnel du terme nous engage &agrave; cr&eacute;er trois entr&eacute;es distinctes (addition de lipides / ration / truie en lactation) et le caract&egrave;re accidentel de la collocation nous am&egrave;ne &agrave; recenser <I>addition de lipides &agrave; la ration de la truie en lactation</I> dans le champ <I>Collocation nominale</I> des trois fiches terminologiques.<BR CLEAR="ALL"><BR> Il sera plus pertinent et &quot;&nbsp;s&ucirc;r&nbsp;&quot; pour le traducteur ou le chercheur de faire porter l'interrogation sur un terme que sur une collocation. L'entr&eacute;e de la collocation se fait donc sous le terme cl&eacute; (encore appel&eacute; base ou terme noyau). Nous pr&eacute;voyons &eacute;galement une entr&eacute;e pour son cooccurrent.<BR CLEAR="ALL"><BR> Exemple&nbsp;: Collocation nominale&nbsp;: <I>teneur en mati&egrave;re s&egrave;che</I> sous l'entr&eacute;e <I>teneur</I> et l'entr&eacute;e <I>mati&egrave;re s&egrave;che</I>.<BR CLEAR="ALL"><BR> La consignation de l'ensemble des collocations dans un champ unique alourdirait la fiche, posant des probl&egrave;mes de lisibilit&eacute;, et retardant l'acc&egrave;s &agrave; l'information. Nous avons donc choisi de cr&eacute;er plusieurs champs collocation pour distinguer les collocations nominales des collocations verbales.<BR CLEAR="ALL"><BR> <B><I>3.2. Traitement des verbes</I></B><BR CLEAR="ALL"><BR> L'extraction est monolingue en fran&ccedil;ais et porte sur des verbes simples. TRINITY n'a pas align&eacute; de verbes en anglais. Ce qui a impliqu&eacute;&nbsp;:<BR> - une lecture des contextes fran&ccedil;ais pour analyser l'environnement linguistique du verbe et rep&eacute;rer des formes verbales complexes,<BR> - une lecture des contextes anglais pour identifier les &eacute;quivalents.<BR CLEAR="ALL"><BR> <I>3.2.1. Cr&eacute;ation de fiches</I><BR CLEAR="ALL"><BR> Les fiches consacr&eacute;es aux verbes n'ont pas la m&ecirc;me structure que les fiches terminologiques ayant en entr&eacute;e des SN. Nous avons structur&eacute; la fiche en y int&eacute;grant les champs suivants&nbsp;: <I>Entr&eacute;e verbale, &Eacute;quivalent anglais, Note linguistique</I>. Ces fiches ne comportent pas de champ <I>D&eacute;finition, Domaine</I> ni <I>Descripteur</I> car nous privil&eacute;gions les informations li&eacute;es aux emplois et fonctionnements des verbes en contexte. Nous avons cr&eacute;&eacute; une dizaine de champs pour recenser des combinaisons linguistiques associ&eacute;es au verbe noyau (<A NAME="annexeE"></A>cf. <A HREF="annexeE.htm">Annexe E</A>). Ces combinaisons pr&eacute;sentent un caract&egrave;re plus ou moins fig&eacute; et constituent des segments de phrases ayant un int&eacute;r&ecirc;t particulier en traduction.<I><BR CLEAR="ALL"></I><BR> Pour faciliter l'acc&egrave;s rapide &agrave; l'information, nous avons cr&eacute;&eacute; pour les verbes support tels que mettre une entr&eacute;e pour chaque forme verbale.<BR CLEAR="ALL"><BR> <I>3.2.2. S&eacute;lection des verbes</I><BR CLEAR="ALL"><BR> Parmi la liste des candidats verbes, notre choix s'est port&eacute; sur les verbes &agrave; forte occurrence dans l'article de recherche car les demandes de traduction et r&eacute;vision adress&eacute;es au service linguistique concernent majoritairement ce type d'article. Un article de recherche pr&eacute;sente la structure IMReD et comprend les parties suivantes&nbsp;: <B>I</B>ntroduction, <B>M</B>at&eacute;riel et m&eacute;thodes (protocole exp&eacute;rimental), <B>R</B>&eacute;sultats, (<B>e</B>t), <B>D</B>iscussion.<I><BR CLEAR="ALL"></I><BR> Nous avons &eacute;cart&eacute; dans un premier temps les verbes sp&eacute;cialis&eacute;s renvoyant &agrave; une notion particuli&egrave;re dans un domaine et ce, pour plusieurs raisons. Les difficult&eacute;s de traduction pos&eacute;es par ces verbes sont mineures. Il existe peu de variation morphologique ou syntaxique entre le fran&ccedil;ais et l'anglais et les &eacute;quivalents anglais des verbes sp&eacute;cialis&eacute;s sont, &agrave; l'instar des termes, g&eacute;n&eacute;ralement connus des chercheurs. Notre hypoth&egrave;se sur la variation est confirm&eacute;e par l'analyse des verbes sp&eacute;cialis&eacute;s, dont la liste est d'ailleurs r&eacute;duite, et de leurs &eacute;quivalents anglais. Citons, &agrave; titre d'exemples&nbsp;: <I>cloner (to clone), coder (to code)</I>.<BR CLEAR="ALL"><BR> Nous avons s&eacute;lectionn&eacute; des verbes de la langue g&eacute;n&eacute;rale qui posent des probl&egrave;mes de traduction aux chercheurs ainsi que des verbes support tels que mettre dont on sait qu'ils g&eacute;n&egrave;rent de nombreuses formes verbales (<I>mettre en comparaison, mettre en &eacute;vidence</I>&#133;). Citons, &agrave; titre d'exemples&nbsp;: <I>montrer, constituer, r&eacute;aliser, conduire, mener, estimer, permettre, varier, sembler, appara&icirc;tre, entra&icirc;ner, expliquer, rechercher</I>.<BR CLEAR="ALL"><BR> <I>3.2.3. Description terminographique</I><BR CLEAR="ALL"><BR> La fiche &quot;&nbsp;verbe&nbsp;&quot; ne devrait pas se r&eacute;duire &agrave; un lexique, c'est &agrave; dire se limiter &agrave; une entr&eacute;e et son ou ses &eacute;quivalent(s) &eacute;tranger(s) (L'HOMME, 1993). Les probl&egrave;mes de traduction sont li&eacute;s aux structures syntaxiques propres aux verbes fran&ccedil;ais et aux verbes anglais. Les utilisateurs ont donc besoin de plus d'informations que celles fournies pour un terme simple ou complexe. Il s'av&egrave;re n&eacute;cessaire de recenser les diff&eacute;rents fonctionnements linguistiques du verbe et de proposer&nbsp;:<BR> - une description du fonctionnement syntaxique du verbe (Quel type de compl&eacute;ment ce verbe peut-il accepter&nbsp;? Quelle pr&eacute;position appelle-t-il&nbsp;? S'agit-il d'un verbe transitif ou intransitif&nbsp;?),<BR> - des informations s&eacute;mantiques, par le recours &agrave; un synonyme pour sp&eacute;cifier le sens du verbe fran&ccedil;ais (le synonyme fran&ccedil;ais fourni est souvent le plus proche morphologiquement de l'&eacute;quivalent anglais),<BR> - un exemple du verbe en contexte, tel qu'il appara&icirc;t dans une phrase.<BR> Il est int&eacute;ressant de noter que les &eacute;quivalents anglais des formes verbales ayant pour noyau un verbe support, tel que mettre sont souvent des verbes simples (<I>mettre en &eacute;vidence</I>&nbsp;: <I>to demonstrate</I>), et qu'au verbe fran&ccedil;ais correspondent diff&eacute;rents moyens d'expressions en anglais (<I>entra&icirc;ner</I>&nbsp;: <I>to cause, to lead to, to result in</I>).<BR CLEAR="ALL"><BR> <I>3.2.4. Poursuite de l'&eacute;tude des verbes</I><BR CLEAR="ALL"><BR> Le traitement des SN avait mis en &eacute;vidence des erreurs dans le d&eacute;coupage r&eacute;alis&eacute; par LEXTER. La liste des SN r&eacute;pertorie par exemple plusieurs s&eacute;quences o&ugrave; compte de appara&icirc;t en t&ecirc;te ([<I>tenir</I>] <I>compte de l'accumulation pr&eacute;f&eacute;rentielle d'assimilats</I>, [<I>rendre</I>] <I>compte de l'orientation des particules</I>, [<I>prendre]</I> <I>en compte des contraintes techniques</I>). Le segment, s'il avait &eacute;t&eacute; correctement identifi&eacute;, aurait permis d'extraire automatiquement des formes verbales complexes telles que rendre compte de, tenir compte de, prendre en compte. Nous avons donc s&eacute;lectionn&eacute; &agrave; partir des noms extraits par LEXTER ceux dont on pouvait soup&ccedil;onner une forte productivit&eacute; de cooccurrence avec des verbes.</P>  <P><TABLE WIDTH="90%" BORDER="0" CELLSPACING="2" CELLPADDING="0">   <TR>     <TD VALIGN="TOP" WIDTH="10%">     &nbsp;Exemples :</TD>      <TD VALIGN="TOP" WIDTH="75%">     &nbsp;hypoth&egrave;se : admettre une ~, &eacute;mettre une ~,     faire l'~ que, rejeter une ~, etc.</TD>    </TR>   <TR>     <TD VALIGN="TOP" WIDTH="10%">&nbsp;     </TD>      <TD VALIGN="TOP" WIDTH="75%">     &nbsp;r&eacute;sultats : commenter des ~, discuter des ~, obtenir     des ~, diffuser des ~, etc.</TD>    </TR>   <TR>     <TD VALIGN="TOP" WIDTH="10%">&nbsp;     </TD>      <TD VALIGN="TOP" WIDTH="75%">     &nbsp;g&egrave;nes : identifier des ~, localiser des ~, introgresser     des ~, porter des ~, etc.</TD>    </TR> </TABLE><BR> Parmi les noms ayant une forte productivit&eacute; de cooccurrence avec des verbes, il appara&icirc;t que certains appartiennent &agrave; la langue g&eacute;n&eacute;rale et s'associent avec des verbes de la langue g&eacute;n&eacute;rale (<I>admettre une hypoth&egrave;se</I>), alors que d'autres sont des termes (<I>g&egrave;nes</I>) et se combinent avec des verbes de la langue g&eacute;n&eacute;rale (<I>identifier</I>) ou avec des verbes sp&eacute;cialis&eacute;s (<I>introgresser</I>). Ces exemples montrent l'interp&eacute;n&eacute;tration de la langue g&eacute;n&eacute;rale et de la langue de sp&eacute;cialit&eacute; dans les textes scientifiques et pourrait remettre en cause, comme l'ont montr&eacute; certains auteurs, le point de vue commun&eacute;ment admis selon lequel il existe une limite franche entre les termes d'un jargon technique et mots de la langue g&eacute;n&eacute;rale (BOURIGAULT et JACQUEMIN, 2000).<BR> A partir de la liste des noms extraits par LEXTER, nous allons poursuivre l'analyse des formes verbales complexes, avec comme point de d&eacute;part les noms de la langue g&eacute;n&eacute;rale car ce type de structure pose de nombreux probl&egrave;mes aux chercheurs de l'INRA lors de la r&eacute;daction. Nous analyserons ensuite les structures verbales form&eacute;es &agrave; partir de termes.<BR> La consignation de ces diff&eacute;rents types de formes verbales soul&egrave;ve le probl&egrave;me de leur acc&egrave;s dans une base de donn&eacute;es. Faut-il entrer la forme verbale enti&egrave;re comme vedette ou le nom et le verbe s&eacute;par&eacute;ment ? Les donn&eacute;es disponibles dans le corpus nous permettent de constituer deux sortes de fiches&nbsp;: un terme sp&eacute;cifique avec les diff&eacute;rents verbes qui peuvent l'accompagner, ou un verbe et les compl&eacute;ments avec lesquels il peut &ecirc;tre utilis&eacute; (L'HOMME, 1997). Ce probl&egrave;me de consignation devra faire l'objet de discussions avec les futurs utilisateurs. On peut en effet supposer que chercheurs et traducteurs ne proc&egrave;dent pas n&eacute;cessairement de mani&egrave;re identique lorsqu'ils interrogent une base de donn&eacute;es.<p></P>  <P>&nbsp;</P>  <P><BR> <B><FONT SIZE="+1">4. Conclusion et perspectives</FONT></B><BR CLEAR="ALL"><BR> &Eacute;tant donn&eacute; la taille du corpus et son h&eacute;t&eacute;rog&eacute;n&eacute;it&eacute;, la qualit&eacute; de l'extraction, en fran&ccedil;ais comme en anglais, est incontestable. Pour les traducteurs, l'apport d'un logiciel d'extraction de terminologie est ind&eacute;niable, quand on sait le peu de temps dont ils disposent pour alimenter une base de donn&eacute;es terminologiques. En outre, ce type d'extraction offre la possibilit&eacute; de relever des SN qu'un traducteur confirm&eacute; n'aurait pas retenus comme entr&eacute;es dans sa base, les jugeant trop simples. Pour les verbes, l'utilisation de LEXTER permet d'identifier tr&egrave;s rapidement des formes verbales complexes dans les contextes. Il serait bien entendu int&eacute;ressant d'avoir des r&eacute;sultats sur les verbes anglais &agrave; partir d'une extraction automatique.<BR> Nous pensons poursuivre l'exploitation des r&eacute;sultats de l'extraction et, lorsque la base sera suffisamment aliment&eacute;e, proc&eacute;der &agrave; un test sur le terrain, aupr&egrave;s de chercheurs, afin de s'assurer qu'elle r&eacute;pond bien &agrave; leurs besoins.<BR> Le travail entrepris sur les verbes pourrait &ecirc;tre am&eacute;lior&eacute; afin de parvenir &agrave; une description du verbe dans la langue scientifique qui permettrait de mieux d&eacute;finir des classes conceptuelles de cooccurrents et de classifier l'emploi des verbes. Cette analyse plus fine du verbe en langue de sp&eacute;cialit&eacute; pourrait contribuer &agrave; l'am&eacute;lioration d'outils d'aide &agrave; la construction de ressources terminologiques &agrave; partir de corpus, et d'une mani&egrave;re plus g&eacute;n&eacute;rale, au traitement automatique des langues.<BR> D&egrave;s lors qu'on prend en compte les besoins des utilisateurs et que l'on ne se limite plus au terme &agrave; vocation nominale, d'autres cat&eacute;gories du discours (verbe, adverbe, adjectif) &eacute;mergent : la n&eacute;cessit&eacute; d'adopter une approche phras&eacute;ologique s'impose.</P>  <P><BR> <B><FONT SIZE="+1">R&eacute;f&eacute;rences</FONT></B><BR> B&Eacute;JOINT H., THOIRON P. (1992), Macrostructure et microstructure dans un dictionnaire de collocations en langue de sp&eacute;cialit&eacute;, Terminologie et traduction, n&deg;2/3, pp.513-522<BR> BLAIS E. (1993), Le phras&eacute;ologisme. Une hypoth&egrave;se de travail, Terminologies nouvelles, n&deg;10, pp.50-56<BR> BLAMPAIN D. (1993), Notions et phras&eacute;ologie. Une nouvelle alliance ?, Terminologies nouvelles, n&deg;10, pp.43-49<BR> BOURIGAULT D. (1994). Lexter, un logiciel d'extraction de terminologie. Application &agrave; l'acquisition des connaissances &agrave; partir de textes. Th&egrave;se en informatique linguistique, Ecole des Hautes Etudes en Sciences Sociales, Paris.<BR> BOURIGAULT D., CHODKIEWICZ C. et HUMBLEY J. (1999), Construction d'un lexique bilingue des droits de l'homme &agrave; partir de l'analyse automatique d'un corpus align&eacute;, Terminologies nouvelles, n&deg;19, pp.70-77<BR> BOURIGAULT D., JACQUEMIN C. (2000). Construction de ressources terminologiques. In PIERREL J.M., Ed., Ing&eacute;nierie des langues, Paris : Herm&egrave;s Sciences Publications, Chap. 9, pp.215-233<BR> COHEN B. (1992), M&eacute;thodes de rep&eacute;rage et de classement des cooccurrents lexicaux, Terminologie et traduction, n&deg;2/3, pp.505-511<BR> HEID U., FREIBOTT G. (1991), Collocations dans une base de donn&eacute;es terminologique et lexicale, Meta, vol. 36, n&deg;1, pp.77-91<BR> HULL D. (2001). Software tools to support the construction of bilingual terminology lexicons. In BOURIGAULT D., JACQUEMIN C. &amp; L'HOMME M-Cl &eacute;d., Recent advances in Computational Terminology, London: John Benjamins.<BR> L'HOMME, M-Cl. (1993), Le verbe en terminologie : du concept au contexte, L'actualit&eacute; terminologique, vol. 26, n&deg;2, pp.17-19<BR> L'HOMME, M-Cl. (1997), M&eacute;thode d'acc&egrave;s informatis&eacute; aux combinaisons lexicales en langue technique, Meta, vol. 42, n&deg;1, pp.15-23<BR> PESANT G., THIBAULT E. (1993), Terminologie et cooccurrence dans la langue du droit, Terminologies nouvelles, n&deg;10, pp.23-35<BR> PICHT H. (1987), Terms and their LSP environment - LSP phraseology, Meta, vol. 32, n&deg;2, pp.149-155</P>  <P><HR ALIGN=LEFT><p></P>  <P><A NAME="*"></A>* Travail r&eacute;alis&eacute; lors d'un stage au sein du service linguistique de l'INRA dans le cadre du DESS Industrie de la langue et Traduction Sp&eacute;cialis&eacute;e (UFR &Eacute;tudes Interculturelles de Langues Appliqu&eacute;es) <A HREF="#R">[R]</A><HR ALIGN=LEFT><FONT COLOR="#000080">[</FONT><A HREF="javascript:history.back(1)">page pr&eacute;c&eacute;dente</A><FONT  COLOR="#000080">] [</FONT><A HREF="../ling.htm">secteur linguistique</A><FONT  COLOR="#000080">]</FONT>  </BODY> </HTML> 
