<HTML> <BODY BGCOLOR=#ffffff> <HR> <CENTER> <FONT SIZE=5 COLOR=#cc0000><b>CHAPITRE 4: La D&eacute;sambiguisation </b></FONT> </CENTER> <HR> <BR><BR> <STRONG> <FONT SIZE=4> 4.1  Introduction </STRONG> </FONT> <P> Comme on a pu le voir, le programme d'analyse morphologique laisse de nombreuses ambigu&iuml;t&eacute;s sur les cat&eacute;gories syntaxiques des mots. Celles-ci ne sont pas d&eacute;cidables dans le cadre d'un analyseur strictement morphologique, car la lev&eacute;e de ce type d'ambigu&iuml;t&eacute; ne peut se faire qu'en prenant en consid&eacute;ration le contexte du mot. Dans la phrase <i>je le bois avec plaisir </i>le mot <i>bois</i> dans son contexte local <i>le bois</i> est tr&egrave;s ambigu.<p> <b>Exemple:</B><p> <CENTER> <TABLE width=60%> <TR><TD> <b>He<TD> <B> can <TD><B>can <TD><B>a <TD><B> can</b></TD></TR><TR><TD> <TD><i>modal	<TD>modal	<TD>	modal</i></TD></TR><TR><TD> <i>det<TD>	noun	<TD>noun<TD>	det	<TD>noun</i></TD></TR><TR><TD> <TD><i>	verb<TD>	verb<TD> verb</TD></TR> </TABLE> </CENTER> <p> Il arrive parfois que le contexte syntaxique entier de la phrase soit insuffisant pour lever toutes les ambigu&iuml;t&eacute;s cat&eacute;gorielles. Dans ce cas, il y a non seulement ambigu&iuml;t&eacute; morphologique, mais aussi ambigu&iuml;t&eacute; syntaxique ex: <i>La petite brise la glace. </i><p> <i></i><b>Remarque</b>: Je ferai souvent un abus de langage en d&eacute;signant le module de d&eacute;sambiguisation par le mot <i>tagger</i>. Que Mr Toubon veuille bien m'excuser.<p> <STRONG> <FONT SIZE=4> 4.2  Deux th&eacute;ories </STRONG> </FONT> <P> <b>- L'analyse bas&eacute;es sur les r&egrave;gles et les machines &agrave; &eacute;tats finis </b>[TAGGIT Green and Rabin 1971], [Francis and Kucera, 1982] [koskenniemi 1990]. Les ambigu&iuml;t&eacute;s syntaxiques sont difficilement repr&eacute;sentables avec des r&egrave;gles qui deviennent tr&egrave;s vite terriblement complexes, surtout si on travaille sur des corpus non limit&eacute;s &agrave; un domaine particulier. De plus, le travail est &agrave; refaire pour chaque langue. Brill[1993] a imagin&eacute; de se limiter &agrave; un nombre restreint de r&egrave;gles et de les affiner, en faisant un apprentissage sur un corpus d&eacute;j&agrave; marqu&eacute; correctement. Mais s'il existe en Anglais un grand corpus tr&egrave;s connu, principalement marqu&eacute; manuellement (Brown Corpus), ce n'est pas le cas pour les autres langues.<p> <p> <b>- L'analyse syntaxique minimale. </b>Elle permet d'effectuer une d&eacute;sambiguisation sur la base des statistiques de cooccurence des cat&eacute;gories morpho-syntactiques. Elle consiste &agrave; choisir, parmi l'ensemble des cat&eacute;gories d'un mot, celle qui est la plus probable dans le contexte imm&eacute;diat (un ou plusieurs mots pr&eacute;c&eacute;dant ou succ&eacute;dant le mot ambigu). Cette approche peut se diviser en deux parties: une partie d'apprentissage o&ugrave; le syst&egrave;me construit, sur base d'une grande quantit&eacute; de donn&eacute;es, sa table des transitions d'une cat&eacute;gorie &agrave; l'autre et t une partie marquage et d&eacute;sambiguisation o&ugrave; le syst&egrave;me peut choisir, sur la base des r&eacute;sultats de l'apprentissage, la cat&eacute;gorie syntaxique la plus probable.<p> Les m&eacute;thodes statistiques ont souvent &eacute;t&eacute; utilis&eacute;es. [DeRose1988] [Church1988]. Ces premiers essais proc&eacute;daient &agrave; un calcul simple des fr&eacute;quences des cooccurences des cat&eacute;gories lexicales sur un corpus d&eacute;j&agrave; marqu&eacute; (Brown), et choisissaient ensuite, apr&egrave;s un rapide calcul des diff&eacute;rentes combinaisons possibles des cat&eacute;gories, la combinaison qui offrait la probabilit&eacute; la plus forte. Malheureusement les r&eacute;sultats n'ont pas d&eacute;pass&eacute; les 80% et cette m&eacute;thode demandait toujours un corpus d&eacute;j&agrave; marqu&eacute; pour l'apprentissage. Les mod&egrave;les de Markov associ&eacute;s &agrave; l'algorithme de <b>Baum-Welch</b> (forward-backward algorithm) et l'algorithme de <b>Viterbi</b> ont apport&eacute; la solution.<p> <STRONG> <FONT SIZE=4> 4.3  Le Mod&egrave;le Cach&eacute; de Markov (HMM) </STRONG> </FONT> <p> <STRONG> <FONT SIZE=3> 4.3.1  Un aper&ccedil;u de la th&eacute;orie </STRONG> </FONT> Pour introduire la th&eacute;orie de HMM, je vais reprendre un exemple de l'article de Lawrence R. Rabiner [A tutorial on Hidden Markov Models 1989] (&agrave; consulter si vous voulez en savoir plus) qui me semble &ecirc;tre le plus compr&eacute;hensible. Je ne m'attarderai pas sur les formules que vous pourrez trouver dans cet article et dans celui de Doug Cutting et Julian Kupiec [A Practical Part-of-Speech Tagger1992]<p> <b><u>Les Urnes et les Balles:</u></b><p> Soit N urnes dans une pi&egrave;ce. Dans chacune d'elles, on place un grand nombre de balles de couleur. On suppose qu'il existe M couleurs de balle. Le processus physique pour obtenir une observation est le suivant. Un g&eacute;nie est dans la pi&egrave;ce, choisit une urne initiale au hasard. Dans cette urne, il prend une balle et la couleur de cette balle est enregistr&eacute;e comme une observation. La balle est alors replac&eacute;e dans la m&ecirc;me urne. Une nouvelle urne est choisie au hasard et l'op&eacute;ration se r&eacute;p&egrave;te. Le processus entier a g&eacute;n&eacute;r&eacute; une s&eacute;quence d'observations finie de couleurs. La question est la suivante: en fonction d'une s&eacute;quence finie d'observations, quelle est la probabilit&eacute; pour qu'au temps t o&ugrave; j'ai observ&eacute; une balle de couleur bleue, cette balle soit extraite de l'urne 15 ? En des termes qui sont plus proches de notre sujet: <p> Quelle est la probabilit&eacute; pour qu'au temps 5 de la phrase &lt;&lt;<i>Il a pris le </i><cite>car</cite><i> de 5 heure</i>&gt;&gt;, le module de morphologie ayant &eacute;mis les cat&eacute;gories syntaxiques ou <b>classe d'&eacute;quivalence:</b> [Verbe|Nom] (Balle), la cat&eacute;gorie [Nom] (Urne) soit retenue?<p> <b><u>&Eacute;l&eacute;ments d'un HMM:</u></b><p> <b><u></u></b>- Soit N le nombre d'&eacute;tats dans le mod&egrave;le (d'Urne) S = {S1,S2,....Sn}<p> - Soit M le nombre distincts d'observations (de Balles) par &eacute;tat V = {V1,V2,...Vm}<p> - Soit une distribution d'&eacute;tats probabilistes <p> <UL> <LI>A={aij} (Probabilit&eacute;s de <b>transition</b> d'un &eacute;tat i  &agrave; l'&eacute;tat j) <LI> aij = P[qt+1 = Sj / qt = Si ] 	1&lt;= i,j &lt;= N<p> <LI>Exemple:  Apr&egrave;s un nom quel est la probabilit&eacute; qu'un verbe soit  &eacute;mis? </UL> <P> - Soit la distribution des probabilit&eacute;s des symboles d'observations dans l'&eacute;tat j, <p> <UL> <LI>B = {bj(k)} ( Probabilit&eacute;s d'<b>&eacute;mission</b> ) <LI>bj(k) = P[Vk &agrave; t | qt = Sj]  1 &lt;= j &lt;= N et 1&lt;= k &lt;= M<p> <LI>Exemple: 	 Quelle est la probabilit&eacute; d'&ecirc;tre dans l'&eacute;tat j (Urne) [Nom] et d'&eacute;mettre le   symbole k (Balle) [Verbe|Nom]? </UL> - A l'&eacute;tat initial: 	 <UL> <LI>Pi = P[q1 = Si] 	1 &lt;= i &lt;= N<p> 	( Probabilit&eacute; <b>initiale</b> ) </UL> <P> <b><u>Les trois probl&egrave;mes pos&eacute;s au tagger:</u></b><p> <b>1. </B>  On donne une s&eacute;quence d'observations O={O1,O2,...,OT} et le mod&egrave;le L=(A,B,P) <p> <B><i>Comment calculer P(O/L) la probabilit&eacute; de la s&eacute;quence d'observations en donnant le mod&egrave;le?</i></B> <p> C'est le probl&egrave;me de l'&eacute;valuation. Donnant plusieurs mod&egrave;les et une s&eacute;quence d'observations, comment calculer la probabilit&eacute; des mod&egrave;les et comment choisir celui qui correspond le mieux &agrave; l'observation?<p> Dans ce cas on utilise l'algorithme de <b>Baum-Welch </b>[Forward-Backward Procedure] qui calcule &agrave; chaque temps t et pour chaque &eacute;tat i la probabilit&eacute; de la s&eacute;quence d'observation partielle {O1,O2,...,Ot} (jusqu'au temps t), et inversement (depuis le temps t) {Ot,...,OT}. Cet algorithme permet d'atteindre une complexit&eacute; de N2T (qui serait autrement de : 	(2T -1)NT ).<p> <p> <b>2.	</b>On donne la s&eacute;quence d'observations O={O1,O2,...,OT} et le mod&egrave;le L=(A,B,P) <p> <B><i>Comment choisir une s&eacute;quence d'&eacute;tats correspondant, Q={q</i>1,q2,..,qt}, qui soit optimale?</i></b><p> C'est la partie qui essaye de d&eacute;terminer le chemin correspondant &agrave; l'observation, c'est-&agrave;-dire de trouver dans le mod&egrave;le la meilleure suite d'&eacute;tats qui maximise la quantit&eacute; suivante, appel&eacute;e suite d'&eacute;tats de <b>Viterbi</b>: P(Q/O,L) &lt;=&gt; P(Q,O/L)<p> L'algorithme de Viterbi trouve l'unique meilleure s&eacute;quence d'&eacute;tats O={q1,q2,...,qT}, quand on lui donne une s&eacute;quence d'observation O={O1,O2,...,OT}<p> <p> <b>3.	</b> <b><i>Comment ajuster les param&egrave;tres du mod&egrave;le L=(A,B,P) qui optimisent P(O/L)?</i></b><p> <i></i>C'est la partie cruciale du tagger que l'on appele l'<b>apprentissage</b>, qui ajuste les param&egrave;tres du mod&egrave;le. C'est de loin la partie la plus difficile. Dans cette partie il n'y a pas d'algorithme connu sur lequel on puisse se reposer, mais on peut cependant utiliser la proc&eacute;dure it&eacute;rative de la m&eacute;thode de Baulm-Welch. L'apprentissage se base sur des proc&eacute;dures de r&eacute;-estimation qui affinent le mod&egrave;le petit &agrave; petit en suivant les &eacute;tapes suivantes:<p> <UL> <LI> Choisir un ensemble initial de param&egrave;tres L0; <LI> Calculer L1 a partir de L0; <LI> R&eacute;p&eacute;ter le processus jusqu'&agrave; un crit&egrave;re de fin. </UL> <BR> <BR><BR> <STRONG> <FONT SIZE=4> 4.4  Le Tagger </STRONG> </FONT> <P> le tagger est un programme qui prend en entr&eacute;e une s&eacute;quence de mots annot&eacute;s avec un ou plusieurs tags et retourne le tag le plus probable pour chaque mot. Cet outil pr&eacute;suppose que chaque mot et chaque ponctuations du texte soient annot&eacute;s avec une ou plusieurs description morpho-syntactiques (DMS), ou classe d'&eacute;quivalence [Cutting 92], fournis par le module de morphologie. Le segmenteur, en conjonction avec la morphologie, doit fournir des annotations telles que les indications de fin de phrase. Car le tagger travaille sur une s&eacute;quence d'observation finie.<p> Pour le calcul des matrices de transition et d'&eacute;mission, l'ambition est d'entra&icirc;ner le mod&egrave;le sur la base d'un corpus ne comportant pas&nbsp;de description morpho-syntactiques (DMS) d&eacute;sambigu&eacute;s. Ce travail n'a pour le moment jamais &eacute;t&eacute; effectu&eacute; sur une autre langue que l'Anglais et Il est tr&egrave;s interessant de voir les r&eacute;sultats optenus sur des textes en Fran&ccedil;ais qui est une langue syntactiquement complexe.<p> On peut definir trois phases dans le processus de d&eacute;sambiguisation: <p> <p> <UL> <LI>La pr&eacute;paration des donn&eacute;es <LI>L'apprentissage  <LI>Le marquage des mots du texte avec les tags les plus probables. </UL> <P> <STRONG> <FONT SIZE=3> 4.4.1  La pr&eacute;paration des donn&eacute;es </STRONG> </FONT> <P> Nous recevons de la morphologie une suite de mots avec des DMS (Descriptions Morpho-Syntactiques). Le tagger travaille avec trois matrices: la matrice de transitions des &eacute;tats de taille NxN, la matrice d'&eacute;mission de taille MxN et la matrice d'initialisation de taille N. On peut faire la remarque suivante: la taille des matrices est proportionnelle au nombre d'&eacute;tats et influence donc directement le temps de calcul (Essais &agrave; faire sur une machine parall&egrave;le). De plus, comme dans le domaine de la recherche documentaire, il n'est pas n&eacute;cessaire de savoir qu'un Verbe est conjugu&eacute; au temps du plus-que-parfait (du moment que la cat&eacute;gorie syntaxique Verbe est d&eacute;sambiguis&eacute;e), nous avons tout int&eacute;r&ecirc;t &agrave; limiter le nombre de descriptions morpho-syntactiques. <p> Nous utiliserons donc une table de conversion que l'utilisateur peut modifier:<p> <CENTER> <TABLE border=1 width=30%> <TR> <TH BGCOLOR=#cccccc><b>DMS <TH bgcolor=#cccccc><B>	Tags</TR><TR><TD> <b><u></u></b>n.f.pl 	<TD>nf</TR><TR><TD> n.f.sg <TD>	nf</TR><TR><TD> n.m 	<TD>nm</TR><TR><TD> n.m.pl <TD>	nm</TR><TR><TD> n.m.sg <TD>	nm</TR><TR><TD> ne 	<TD>ne</TR><TR><TD> num 	<TD>num</TR><TR><TD> subc	<TD>subc</TR><TR><TD> v.con.1.pl 	<TD>v</TR><TR><TD> v.con.1.sg 	<TD>v</TR><TR><TD> v.con.2.sg 	<TD>v</TR><TR><TD> v.con.3.pl 	<TD>v</TR> </TABLE> </CENTER> <BR><BR> Le programme de pr&eacute;paration agit comme un filtre apr&egrave;s le programme de morphologie. Il convertit les DMS en tags, en fonction de la table de conversion, et pr&eacute;pare deux fichiers : un fichier d'apprentissage (de training) qui est simplement une suite de chiffres repr&eacute;sentant l'enchainement des classes d'&eacute;quivalence, partitionn&eacute; par les marquages de d&eacute;but et fin de phrases, et un fichier (Classes.fmt) repr&eacute;sentant la description des classes d'&eacute;quivalence [Kupiec 1989][Cutting 1992]<p> <BR> <BR> <CENTER> <TABLE> <TR><TH COLSPAN=2><b>Texte initial:</b></TR><TR><TD> le	<TD> 	BOS	<TD>le\det.m.sg|le\pro</TR><TR><TD> usine  <TD><TD> usine\n.f.sg</TR><TR><TD> , <TD><TD> 	=\Punct</TR><TR><TD> qui <TD><TD> qui\pro</TR><TR><TD> devrait 	<TD><TD> 	devoir\v.con.3.sg</TR><TR><TD> &ecirc;tre 	<TD><TD> 	&ecirc;tre\n.m.sg</TR><TR><TD> implant&eacute;e 	<TD><TD> 	implanter\v.pps.f.sg</TR><TR><TD> &agrave;  <TD><TD> &agrave;\p</TR><TR><TD> Eloyes  	<TD><TD>	=\Unknown</TR><TR><TD> repr&eacute;sente r<TD><TD> repr&eacute;senter\v.imp.2.sg|repr&eacute;senter\v.ind.prs.1.sg|repr&eacute;senter\v.ind.prs.3.sg|repr&eacute;senter\v.sub.prs.1.sg|repr&eacutesenter\v.sub.prs.3.sg</TR><TR><TD> un	<TD><TD>un\n.m.pl|un\n.m.sg|un\a.m.sg</TR><TR><TD> investissement 	<TD><TD> investissement\n.m.sg</TR><TR><TD> de  <TD><TD> de\p</TR><TR><TD> environ 	<TD><TD> 	environ\adv</TR><TR><TD> 3,7  <TD><TD> =\Num</TR><TR><TD> milliards 	<TD><TD> 	milliard\n.m.pl</TR><TR><TD> de  <TD><TD> de\p</TR><TR><TD> yens  <TD>	EOS 	<TD>yen\n.m.pl</TR><TR><TD> elle  	<TD>BOS 	<TD>elle\pro</TR><TR><TD> fabriquera 	<TD><TD> 	fabriquer\v.fut.3.sg</TR><TR><TD> ,  <TD><TD> =\Punct</TR><TR><TD> dans  <TD><TD> dans\p</TR><TR><TD> un  <TD><TD>	un\n.m.pl|un\n.m.sg|un\a.m.sg</TR><TR><TD> premier 	<TD><TD>	premier\n.m.sg</TR> </TABLE> </CENTER> <p> Extrait des deux fichiers cr&eacute;&eacute;s par le programme de pr&eacute;paration:<BR><BR><BR> <b><u>Fichier Classes.fmt</u></b><p> <CENTER> <TABLE> <TH><b>Combinaisons <TH><B> fr&eacute;quence <TH><B> Classes d'&eacute;quivalence </TR><TR><TD> |2271248 <TD><TD># Nombre total d'occurences de mots dans le texte. </TR><TR><TD> 1 	<TD>10847 	<TD>Abrv</TR><TR><TD> 2 	<TD>149017 	<TD>Adj</TR><TR><TD> 2|3 	<TD>198 	<TD>Adj|Adv</TR><TR><TD> 8|12 	<TD>83 	<TD>Nf|Pro</TR><TR><TD> 9 	<TD>357838 	<TD>Nm</TR><TR><TD> 9|11 	<TD>14307 	<TD>Nm|P</TR><TR><TD> 9|12 	<TD>5193 	<TD>Nm|Pro</TR><TR><TD> 10 	<TD>26031 	<TD>Num</TR><TR><TD> 11 	<TD>265156 	<TD>P</TR><TR><TD> 12 	<TD>90478 	<TD>Pro</TR><TR><TD> 12|14 	<TD>28345 	<TD>Pro|Subc</TR><TR><TD> 12|15 	<TD>81 	<TD>Pro|V</TR><TR><TD> 13 	<TD>178773 	<TD>Punct</TR><TR><TD> 14 	<TD>1420 	<TD>Subc</TR><TR><TD> 15 	<TD>220017 	<TD>V</TR> </TABLE> </CENTER> <STRONG> <BR><BR><BR> <FONT SIZE=3> 4.4.2  L'apprentissage </STRONG> </FONT> <P> L'apprentissage prend en entr&eacute;e le fichier contenant la d&eacute;finition des classes d'&eacute;quivalence et le fichier de training, d&eacute;crits pr&eacute;c&eacute;demment.  Le programme est compos&eacute; de trois matrices (transitions, &eacute;missions, initialisation) qui sont toutes &eacute;quiprobables &agrave; l'&eacute;tat initial, c'est-&agrave;-dire que l'ona autant de chance: <p> <UL> <LI>de trouver un Verbe apr&egrave;s un Nom <LI>d'&eacute;mettre la cat&eacute;gorie Verbe si on &agrave; une classe d'&eacute;quivalence [Adverbe| Nom| Verbe] <LI>de commencer une phrase avec un Nom qu'avec un Adverbe, </UL> <p> A l'&eacute;tat initial on peut agir sur ces trois matrices en fonction de nos connaissances linguistiques. Par exemple on sait qu'en Fran&ccedil;ais on &agrave; plus chance de commencer une phrase avec un Pronom qu'avec un Adjectif etc... . On peut aussi utiliser les informations de la fr&eacute;quence des classes d'&eacute;quivalence dans le texte, donn&eacute;es dans le fichier <i>classes.fmt. </i>Mais on ne conna&icirc;t pas aujourd'hui les effets de ces param&egrave;tres ajust&eacute;s, sur la qualit&eacute; des r&eacute;sultats (c'est une partie des ambitions du projet MULTEXT pour la d&eacute;sambiguisation).<p> Le programme r&eacute;estime les probabilit&eacute;s des matrices &agrave; chaque observation. Et on peut dire que l'algorithme converge vers des valeurs de param&egrave;tres qui forment un point critique de P(O/L). Ce point critique peut correspondre &agrave; un maximum local ou &agrave; un point d'inflexion qui nous indique la fin de l'apprentissage.<p> <BR><BR><BR> <STRONG> <FONT SIZE=3> 4.5  5  Tagging </STRONG> </FONT> <P> C'est la partie qui prend en entr&eacute;e l'ensemble des trois matrices entra&icirc;n&eacute;es, et un texte pr&eacute;par&eacute; (dont les DMS ont &eacute;t&eacute; convertis). L'algorithme de Vitervi construit le meilleur chemin pour chaque phrase et proposera &agrave; la sortie le texte annot&eacute; d'un seul tag par mot, que l'on esp&egrave;re &ecirc;tre correct.<p> <b><u>Texte marqu&eacute;</u></b><p> <CENTER> <TABLE> <TR><TD> le	<TD>BOS	<TD>le\Det</TR><TR><TD> usine  <TD><TD> usine\Nf</TR><TR><TD> ,  <TD><TD> =\Punct</TR><TR><TD> qui  <TD><TD> qui\Pro</TR><TR><TD> devrait 	<TD><TD> 	devoir\V</TR><TR><TD> &ecirc;tre 	<TD><TD> 	&ecirc;tre\V</TR><TR><TD> implant&eacute;e 	<TD><TD> 	implanter\V</TR><TR><TD> &agrave; 	<TD><TD> 	&agrave;\P</TR><TR><TD> Eloyes  	<TD><TD>	=\Unknown</TR><TR><TD> repr&eacute;sente r	<TD><TD>	repr&eacute;senter\V</TR><TR><TD> un  	<TD><TD>	un\Adv</TR><TR><TD> investissement  <TD><TD> investissement\Nm</TR><TR><TD> de  <TD><TD> de\P</TR><TR><TD> environ 	<TD><TD> 	environ\Adv</TR><TR><TD> 3,7  <TD><TD> =\Num</TR><TR><TD> milliards  <TD><TD> milliard\Nm</TR><TR><TD> de  	<TD><TD>	de\P</TR><TR><TD> yens  <TD>	EOS <TD>	yen\Nm</TR><TR><TD> elle  <TD>	BOS 	<TD>elle\pro</TR><TR><TD> fabriquera 	<TD><TD> 	fabriquer\V</TR><TR><TD> ,  <TD><TD> =\Punct</TR><TR><TD> dans  <TD><TD> dans\P</TR><TR><TD> un  <TD><TD> un\Nm</TR><TR><TD> premier 	<TD><TD> 	premier\Nm</TR> </TABLE> </CENTER> <p> <STRONG> <FONT SIZE=4> 4.6  Conclusion </STRONG> </FONT> <P> On peut d&egrave;s &agrave; pr&eacute;sent faire plusieurs remarques:<p> <p>  <B>1.	</b>Le segmenteur, dans l'&eacute;tat actuel des recherches, g&eacute;n&egrave;re des erreurs qu'il est tr&egrave;s difficile de corriger de mani&egrave;re automatique.<p> <b>2.	</b>La morphologie, qui se base sur un dictionnaire Fran&ccedil;ais, dont j'ai d&eacute;riv&eacute; toutes les formes fl&eacute;chies, et le programme de recherche lexicale (lookup), comporte elle aussi des erreurs.<p> <b>3.	</b>Le tagger qui est bas&eacute; sur des techniques stochastiques, est par d&eacute;finition incertain. Les premiers r&eacute;sultats sur un grand corpus avoisinent 7% d'erreurs.<p> <p> Pourquoi le marquage de grande quantit&eacute; de donn&eacute;es n'optient pas le succ&egrave;s escompt&eacute;? Tout simplement parce que les outils actuels ne sont appropri&eacute;s. Chaque centre de recherche a son propre programme (ad hoc) de traitement de donn&eacute;es. Il n'existe souvent aucune coordination. Les programmes sont &eacute;crits et r&eacute;-&eacute;crits pour chaque nouveau probl&egrave;me et pour chaque nouvelle langue. <p> <CENTER> <TABLE width=80%> <TR><TD> <i>&lt;&lt;Text-oriented methods and software tools have come to be of primary interest to the NLP community. However, existing tools for natural language processing (NLP) and machine translation (MT) corpus-based research are typically embedded in large, non-adaptable systems which are fundamentally incompatible.Little effort has been made to develop sotfware standards, and software reusability is virtually usable non-existent. As a result, there is a serious lack of generally usable tools to manipulate and analyse text corpora that are widely available for research, especially for multi-lingual applications&gt;&gt; </i>[Veronis94] </TR> </TABLE> </CENTER> <p> <HR> <FONT SIZE=4> <A href="memoireTDM.html">Table des matires</A> <P> <A href="memoire.epfl.chap5.html">Chapitre V. Quelques Tests</A> </FONT> </BODY> </HTML> 
