<HTML> <HEAD> <META NAME="Generator" CONTENT="Corel WordPerfect 8"> <TITLE></TITLE> </HEAD> <BODY TEXT="#000000" LINK="#0000ff" VLINK="#551a8b" ALINK="#ff0000" BGCOLOR="#faebd7">  <FONT FACE="CG Times"><STRONG><FONT SIZE="+2"><CENTER>Bitexte, bi-concordance et collocation</STRONG><br> <p><cite>Th&egrave;se d&eacute;pos&eacute;e en d&eacute;cembre 1996 par <a href="mailto:langlois@balzac.sti.uottawa.ca">Lucie Langlois</a><br> sous la direction de Roda P. Roberts<br> pour l'obtention de la Ma&icirc;trise en Traduction (Universit&eacute; d'Ottawa)</cite></CENTER></FONT>  <h4><a href="ll-debut.htm#resume">R&eacute;sum&eacute;</a></h4> <h4><a href="ll-debut.htm#abstract">Abstract</a></h4> <h4><a href="ll-debut.htm#table">Table des mati&egrave;res</a></h4> <P><EM><STRONG><U><FONT FACE="CG Times">							</STRONG></EM></U></FONT></P>  <P><STRONG><EM><U><FONT FACE="CG Times">INTRODUCTION</EM>                                                                                              </STRONG></U></FONT></P>  <P><U><STRONG><FONT FACE="CG Times">0.1  Les ressources du lexicographe</STRONG></U></FONT></P>  <P><FONT FACE="CG Times">Trois principales sources d'information sont &agrave; la disposition du lexicographe&nbsp;: les dictionnaires existants, l'introspection et l'observation de la langue en usage.  </FONT></P>  <P><FONT FACE="CG Times">En r&egrave;gle g&eacute;n&eacute;rale, un lexicographe r&eacute;dige une entr&eacute;e de dictionnaire apr&egrave;s avoir consult&eacute; d'autres dictionnaires : chaque entr&eacute;e r&eacute;sultant d'une analyse en profondeur de la part d'un autre lexicographe, il serait malheureux de n&eacute;gliger cette source d'information.  Dans cette optique, les dictionnaires consult&eacute;s doivent &ecirc;tre des ouvrages s&eacute;rieux<A HREF="#N_1_"><SUP>(1)</SUP></A>, mis &agrave; jour r&eacute;guli&egrave;rement.  </FONT></P>  <P><FONT FACE="CG Times">Lorsqu'il r&eacute;dige une entr&eacute;e, un lexicographe doit aussi se fier &agrave; son intuition,<INS> </INS>ce qu'on appelle l'<EM>introspection</EM>.  Ainsi, le langagier s'appuie sur ses connaissances formelles et intuitives de la langue lorsqu'il s'interroge sur le sens et l'utilisation d'un mot donn&eacute;. </FONT></P>  <P><FONT FACE="CG Times">Finalement, aucune entr&eacute;e ne devrait &ecirc;tre r&eacute;dig&eacute;e sans que le lexicographe ait <EM>observ&eacute;</EM> la langue en usage.  Si, historiquement, cette observation a pu se limiter &agrave; ce que des lecteurs, souvent b&eacute;n&eacute;voles, rep&eacute;raient au fil de leurs lectures, comme c'&eacute;tait le cas du Webster's Third, elle est aujourd'hui, gr&acirc;ce &agrave; l'informatique, beaucoup plus syst&eacute;matique, exhaustive et objective.  En effet, lorsque le lexicographe pr&eacute;pare une entr&eacute;e, il interroge un corpus &agrave; l'aide d'un concordancier, et l'ordinateur affiche une s&eacute;rie de lignes de concordance pour le mot demand&eacute;.  Ces concordances facilitent la t&acirc;che du lexicographe.  Est-ce que tel ou tel mot est effectivement utilis&eacute;?  Certaines divisions s&eacute;mantiques devraient-elles &ecirc;tre &eacute;limin&eacute;es ou ajout&eacute;es?  Comment les diff&eacute;rents sens de ce mot devraient-ils &ecirc;tre ordonn&eacute;s?  Quelles sont les combinaisons les plus courantes de ce mot?  Autant de questions auxquelles les concordances permettent de r&eacute;pondre plus facilement.</FONT></P>  <P><FONT FACE="CG Times">L'utilisation de corpus unilingues en lexicographie a fait l'objet de maintes publications, dont la plus connue sans doute est celle qui relate l'exp&eacute;rience de Sinclair et de ses coll&egrave;gues (John&nbsp;Sinclair 1987a) lors de la r&eacute;daction du dictionnaire Collins Cobuild.  Cependant, l'incidence des corpus bilingues sur la lexicographie bilingue n'a pas encore fait l'objet de recherches pouss&eacute;es, sans doute &agrave; cause de la raret&eacute; des corpus bilingues et des outils con&ccedil;us pour les exploiter (Tony&nbsp;McEnery et Andrew Wilson 1996:129).  </FONT></P>  <P><STRONG><U><FONT FACE="CG Times">0.2  Sujet de la th&egrave;se</U></STRONG></FONT></P>  <P><FONT FACE="CG Times">L'analyse de corpus est devenue une &eacute;tape essentielle de la lexicographie unilingue, et son utilit&eacute; n'est plus &agrave; d&eacute;montrer.  Malheureusement, peu de chercheurs se sont attard&eacute;s &agrave; prouver l'utilit&eacute; des corpus bilingues en lexicographie bilingue, peut-&ecirc;tre parce que les bitextes et les concordanciers bilingues sont encore tr&egrave;s rares.  La pr&eacute;sente th&egrave;se vise &agrave; combler quelque peu cette lacune.  </FONT></P>  <P><STRONG><U><FONT FACE="CG Times">0.3  Objectifs</U></STRONG></FONT></P>  <P><FONT FACE="CG Times">Ce travail comporte deux grands objectifs&nbsp;: faire valoir l'importance des corpus bilingues en lexicographie bilingue et formaliser les r&egrave;gles n&eacute;cessaires &agrave; l'&eacute;laboration d'un logiciel con&ccedil;u pour l'extraction de collocations et de leurs traductions possibles.</FONT></P>  <P><FONT FACE="CG Times">Ainsi, nous mettrons en lumi&egrave;re le r&ocirc;le et l'utilit&eacute; des corpus, et plus particuli&egrave;rement des corpus bilingues, en lexicographie bilingue en clarifiant la terminologie li&eacute;e &agrave; l'exploitation des corpus et en montrant la diff&eacute;rence entre la fa&ccedil;on dont les corpus unilingues et les corpus bilingues peuvent &ecirc;tre utilis&eacute;s.</FONT></P>  <P><FONT FACE="CG Times">Dans un deuxi&egrave;me temps, nous discuterons de l'extraction automatique des collocations &agrave; partir d'un bitexte.  Ainsi, nous montrerons comment les bi-concordances peuvent servir au rep&eacute;rage de collocations, nous pr&eacute;senterons ensuite deux logiciels con&ccedil;us sp&eacute;cialement pour le rep&eacute;rage des collocations et, finalement, nous proposerons une m&eacute;thode d'extraction automatique de collocations dans un bitexte et la comparerons &agrave; celle qui existe d&eacute;j&agrave;.</FONT></P>  <P><STRONG><U><FONT FACE="CG Times">0.4  M&eacute;thodologie de la recherche</STRONG></U></FONT></P>  <P><FONT FACE="CG Times">Nous avons tent&eacute;, en premier lieu, de faire un tour d'horizon de la documentation th&eacute;orique dans le but, surtout, de d&eacute;finir les notions avec lesquelles nous allions traiter.  Il aurait &eacute;t&eacute; difficile de r&eacute;unir une bibiliographie exhaustive de la question, surtout dans le domaine unilingue, puisque nombreux sont les chercheurs qui se sont attard&eacute;s &agrave; la question des corpus, des concordances et des collocations.  Cela dit, nous croyons que les articles cit&eacute;s dans le cadre de ce travail sont repr&eacute;sentatifs des recherches actuelles.</FONT></P>  <P><FONT FACE="CG Times">Une fois certaines d&eacute;finitions &eacute;tablies, nous avons analys&eacute; quelques logiciels, d'abord un bi-concordancier et ensuite deux extracteurs de collocations.  Finalement nous avons propos&eacute; une m&eacute;thode originale visant l'extraction automatique de collocations et de leurs traductions possibles.</FONT></P>  <P><U><STRONG><FONT FACE="CG Times">0.5  R&eacute;sum&eacute; de la th&egrave;se</STRONG></U></FONT></P>  <P><FONT FACE="CG Times">Dans le premier chapitre, nous nous attarderons &agrave; la question des corpus et des bitextes.  Nous tenterons d'en arriver &agrave; une  d&eacute;finition de <EM>corpus</EM> qui soit utile et pertinente dans le cadre de nos travaux en lexicographie.  Nous d&eacute;crirons quelques-unes des nombreuses typologies qui ont &eacute;t&eacute; utilis&eacute;es par divers chercheurs, montrerons en quoi la taille d'un corpus est un crit&egrave;re particuli&egrave;rement significatif en lexicographie et expliquerons pourquoi il s'av&egrave;re parfois utile de subdiviser un corpus en sous-corpus.  Nous d&eacute;finirons ensuite ce qu'on entend g&eacute;n&eacute;ralement par corpus bilingue et par bitexte.  Finalement, nous pr&eacute;senterons quelques-uns des algorithmes d'alignement qui ont &eacute;t&eacute; utilis&eacute;s par divers chercheurs pour apparier des corpus de traduction, en particulier celui qui a &eacute;t&eacute; exploit&eacute; pour cr&eacute;er le bitexte du <EM>Hansard</EM> qui a servi &agrave; nos travaux. </FONT></P>  <P><FONT FACE="CG Times">Au chapitre 2, il sera question de concordance et de bi-concordance.  Nous tenterons de d&eacute;finir ces termes, puis &eacute;tudierons des concordances produites par un concordancier unilingue, soit PAT.  Nous encha&icirc;nerons avec la description du bi-concordancier TransSearch, suivie d'une section dans laquelle nous proposerons diverses fa&ccedil;ons dont les bi-concordances produites par ce logiciel peuvent &ecirc;tre utilis&eacute;es en lexicographie bilingue.</FONT></P>  <P><FONT FACE="CG Times">La premi&egrave;re partie du 3<SUP>e</SUP> chapitre brossera un tableau de la probl&eacute;matique des collocations.  Nous donnerons d'abord un aper&ccedil;u de quelques-unes des diverses terminologies utilis&eacute;es, passerons ensuite en revue diff&eacute;rentes d&eacute;finitions du terme <EM>collocation</EM> puis discuterons de diverses typologies utilis&eacute;es par certains chercheurs.  Nous comparerons la collocation &agrave; diverses autres combinaisons de mots, notamment &agrave; l'expression fig&eacute;e, &agrave; la combinaison libre et au compos&eacute;.  Nous aborderons le r&ocirc;le de la collocation dans le dictionnaire bilingue et d&eacute;crirons finalement deux <EM>extracteurs</EM> de collocations, un qui fonctionne sur un corpus unilingue, <EM>Xtract</EM>, puis l'autre, <EM>Champollion</EM>, qui tourne sur des bitextes.</FONT></P>  <P><FONT FACE="CG Times">Nous d&eacute;taillerons, dans le dernier chapitre, la m&eacute;thode que nous avons &eacute;labor&eacute;e pour extraire d'un bitexte des collocations et leurs traductions possibles.  Nous expliquerons d'abord les divers programmes et mod&egrave;les utilis&eacute;s.  Nous pr&eacute;senterons ensuite deux cas&nbsp;: le mot fran&ccedil;ais <EM>erreur</EM> et le mot anglais <EM>future</EM>.  Pour chaque cas, nous analyserons les r&eacute;sultats produits &agrave; chaque &eacute;tape de notre mod&egrave;le, puis critiquerons les r&eacute;sultats finals.  Nous ferons ensuite le point sur l'informatisation du mod&egrave;le complet, puis comparerons nos r&eacute;sultats &agrave; ceux de Champollion.</FONT></P> 
