<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns="http://www.w3.org/TR/REC-html40">  <head> <meta http-equiv=Content-Type content="text/html; charset=windows-1252"> <meta name=ProgId content=Word.Document> <meta name=Generator content="Microsoft Word 9"> <meta name=Originator content="Microsoft Word 9"> <link rel=File-List href="./lc2002-T-Lebarbe_fichiers/filelist.xml"> <link rel=Edit-Time-Data href="./lc2002-T-Lebarbe_fichiers/editdata.mso"> <link rel=OLE-Object-Data href="./lc2002-T-Lebarbe_fichiers/oledata.mso"> <!--[if !mso]> <style> v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);} </style> <![endif]--> <title>Validation et invalidation des relations de dpendances par la collocation sur internet</title> <!--[if gte mso 9]><xml>  <o:DocumentProperties>   <o:Author>GREYC</o:Author>   <o:LastAuthor>Geoffrey Williams</o:LastAuthor>   <o:Revision>3</o:Revision>   <o:TotalTime>4</o:TotalTime>   <o:LastPrinted>2002-06-12T13:08:00Z</o:LastPrinted>   <o:Created>2002-08-24T15:10:00Z</o:Created>   <o:LastSaved>2002-08-24T15:12:00Z</o:LastSaved>   <o:Pages>4</o:Pages>   <o:Words>401</o:Words>   <o:Characters>2287</o:Characters>   <o:Company>Universit</o:Company>   <o:Lines>19</o:Lines>   <o:Paragraphs>4</o:Paragraphs>   <o:CharactersWithSpaces>2808</o:CharactersWithSpaces>   <o:Version>9.2812</o:Version>  </o:DocumentProperties> </xml><![endif]--><!--[if gte mso 9]><xml>  <w:WordDocument>   <w:HyphenationZone>21</w:HyphenationZone>   <w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery>   <w:DisplayVerticalDrawingGridEvery>0</w:DisplayVerticalDrawingGridEvery>   <w:UseMarginsForDrawingGridOrigin/>   <w:Compatibility>    <w:FootnoteLayoutLikeWW8/>    <w:ShapeLayoutLikeWW8/>    <w:AlignTablesRowByRow/>    <w:ForgetLastTabAlignment/>    <w:LayoutRawTableWidth/>    <w:LayoutTableRowsApart/>   </w:Compatibility>  </w:WordDocument> </xml><![endif]--> <style> <!--  /* Font Definitions */ @font-face 	{font-family:Times; 	panose-1:0 0 0 0 0 0 0 0 0 0; 	mso-font-alt:"Times New Roman"; 	mso-font-charset:0; 	mso-generic-font-family:roman; 	mso-font-format:other; 	mso-font-pitch:variable; 	mso-font-signature:3 0 0 0 1 0;} @font-face 	{font-family:Helvetica; 	panose-1:0 0 0 0 0 0 0 0 0 0; 	mso-font-alt:Arial; 	mso-font-charset:0; 	mso-generic-font-family:swiss; 	mso-font-format:other; 	mso-font-pitch:variable; 	mso-font-signature:3 0 0 0 1 0;}  /* Style Definitions */ p.MsoNormal, li.MsoNormal, div.MsoNormal 	{mso-style-parent:""; 	margin:0cm; 	margin-bottom:.0001pt; 	text-align:justify; 	mso-pagination:widow-orphan; 	font-size:11.0pt; 	font-family:Times; 	mso-fareast-font-family:"Times New Roman"; 	mso-bidi-font-family:"Times New Roman";} h1 	{mso-style-next:Normal; 	margin-top:12.0pt; 	margin-right:0cm; 	margin-bottom:3.0pt; 	margin-left:18.0pt; 	text-align:justify; 	text-indent:-18.0pt; 	mso-pagination:widow-orphan; 	page-break-after:avoid; 	mso-outline-level:1; 	mso-list:l0 level1 lfo1; 	tab-stops:list 18.0pt; 	font-size:14.0pt; 	font-family:Helvetica; 	mso-font-kerning:14.0pt;} p.MsoTitle, li.MsoTitle, div.MsoTitle 	{margin:0cm; 	margin-bottom:.0001pt; 	text-align:center; 	mso-pagination:widow-orphan; 	font-size:16.0pt; 	font-family:Times; 	mso-fareast-font-family:"Times New Roman"; 	mso-bidi-font-family:"Times New Roman"; 	font-weight:bold;} p.MsoBodyText, li.MsoBodyText, div.MsoBodyText 	{margin:0cm; 	margin-bottom:.0001pt; 	text-align:justify; 	mso-pagination:widow-orphan; 	font-size:11.0pt; 	font-family:Times; 	mso-fareast-font-family:"Times New Roman"; 	mso-bidi-font-family:"Times New Roman";} a:link, span.MsoHyperlink 	{color:blue; 	text-decoration:underline; 	text-underline:single;} a:visited, span.MsoHyperlinkFollowed 	{color:purple; 	text-decoration:underline; 	text-underline:single;} @page Section1 	{size:612.0pt 792.0pt; 	margin:70.85pt 70.85pt 70.85pt 70.85pt; 	mso-header-margin:36.0pt; 	mso-footer-margin:36.0pt; 	mso-paper-source:0;} div.Section1 	{page:Section1;} @page Section2 	{size:612.0pt 792.0pt; 	margin:70.85pt 70.85pt 70.85pt 70.85pt; 	mso-header-margin:36.0pt; 	mso-footer-margin:36.0pt; 	mso-paper-source:0;} div.Section2 	{page:Section2;}  /* List Definitions */ @list l0 	{mso-list-id:1; 	mso-list-type:simple; 	mso-list-template-ids:0;} @list l0:level1 	{mso-level-style-link:"Titre 1"; 	mso-level-tab-stop:18.0pt; 	mso-level-number-position:left; 	margin-left:18.0pt; 	text-indent:-18.0pt;} ol 	{margin-bottom:0cm;} ul 	{margin-bottom:0cm;} --> </style> <!--[if gte mso 9]><xml>  <o:shapedefaults v:ext="edit" spidmax="2050"/> </xml><![endif]--><!--[if gte mso 9]><xml>  <o:shapelayout v:ext="edit">   <o:idmap v:ext="edit" data="1"/>  </o:shapelayout></xml><![endif]--> </head>  <body lang=FR link=blue vlink=purple style='tab-interval:35.4pt'>  <div class=Section1>  <p class=MsoTitle>Validation des relations de dpendances </p>  <p class=MsoNormal align=center style='text-align:center'><b style='mso-bidi-font-weight: normal'><span style='font-size:16.0pt;mso-bidi-font-size:11.0pt'>par la cooccurrence sur Internet&nbsp;:<o:p></o:p></span></b></p>  <p class=MsoNormal align=center style='text-align:center'><b style='mso-bidi-font-weight: normal'><span style='font-size:16.0pt;mso-bidi-font-size:11.0pt'>prsentation critique<o:p></o:p></span></b></p>  <p class=MsoNormal align=center style='text-align:center'>Thomas Lebarb</p>  <p class=MsoNormal align=center style='text-align:center'>Universit de Caen</p>  <p class=MsoNormal align=center style='text-align:center'>Laboratoire GREYC  CNRS  UMR 6072</p>  <p class=MsoNormal align=center style='text-align:center'>lebarbe@info.unicaen.fr</p>  </div>  <span style='font-size:11.0pt;font-family:Times;mso-fareast-font-family:"Times New Roman"; mso-bidi-font-family:"Times New Roman";mso-ansi-language:FR;mso-fareast-language: FR;mso-bidi-language:AR-SA'><br clear=all style='page-break-before:auto; mso-break-type:section-break'> </span>  <div class=Section2>  <h1><![if !supportLists]>1.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp; </span><![endif]>Introduction</h1>  <p class=MsoNormal>Dans nos travaux en traitement automatique des langues, nous suggrons lutilisation de lInternet pour la validation (ou linvalidation) de la mise en relation des chunks au sein de la phrase et plus particulirement pour le problme dattachement prpositionnel (<i style='mso-bidi-font-style: normal'>PP-attachment</i>). Nous prsentons cette mthode, ses applications pratiques et les rsultats mais aussi certaines critiques que lon peut en faire.</p>  <h1><![if !supportLists]>2.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp; </span><![endif]>Principes gnraux</h1>  <p class=MsoBodyText>Nos travaux en analyse syntaxique automatique sont souvent qualifis dapproche &nbsp;parci-monieuse&nbsp; du T.A.L. dans la mesure o les ressources auxquelles nous faisons appel sont lgres (pas de lexique exhaustif ni dnumration de structures). Une telle approche prsente lavantage dtre peu coteuse aussi bien du point de vue dveloppement que du point de vue temps danalyse. En contrepartie, elle noffre pas ou peu de ressources dites &nbsp;lexicales&nbsp; qui donneraient une comptence quasi-smantique au systme danalyse. Pour remdier  ce problme, nous suggrons lutilisation de requtes sur lInternet, en particulier pour le problme de lattachement prpositionnel.</p>  <h1><![if !supportLists]>3.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp; </span><![endif]><!--[if gte vml 1]><v:shapetype id="_x0000_t75" coordsize="21600,21600"  o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f"  stroked="f">  <v:stroke joinstyle="miter"/>  <v:formulas>   <v:f eqn="if lineDrawn pixelLineWidth 0"/>   <v:f eqn="sum @0 1 0"/>   <v:f eqn="sum 0 0 @1"/>   <v:f eqn="prod @2 1 2"/>   <v:f eqn="prod @3 21600 pixelWidth"/>   <v:f eqn="prod @3 21600 pixelHeight"/>   <v:f eqn="sum @0 0 1"/>   <v:f eqn="prod @6 1 2"/>   <v:f eqn="prod @7 21600 pixelWidth"/>   <v:f eqn="sum @8 21600 0"/>   <v:f eqn="prod @7 21600 pixelHeight"/>   <v:f eqn="sum @10 21600 0"/>  </v:formulas>  <v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"/>  <o:lock v:ext="edit" aspectratio="t"/> </v:shapetype><v:shape id="_x0000_s1026" type="#_x0000_t75" style='position:absolute;  left:0;text-align:left;margin-left:0;margin-top:36.4pt;width:3in;height:140.5pt;  z-index:1;mso-position-horizontal:left' fillcolor="window">  <v:imagedata src="./lc2002-T-Lebarbe_fichiers/image001.wmz" o:title=""/>  <w:wrap type="square"/> </v:shape><![if gte mso 9]><o:OLEObject Type="Embed" ProgID="Excel.Sheet.8"  ShapeID="_x0000_s1026" DrawAspect="Content" ObjectID="_1091714276"> </o:OLEObject> <![endif]><![endif]--><![if !vml]><img width=288 height=187 src="./lc2002-T-Lebarbe_fichiers/image002.gif" align=left hspace=12 v:shapes="_x0000_s1026"><![endif]>Amliorations des dfauts de lanalyseur GREYC98</h1>  <p class=MsoNormal>Une tude de lutilisation des cooccurrences par pairs des ttes de chunks impliques dans une situation dattachement prpositionnel nous a permis de montrer que certaines erreurs danalyse pouvaient tre vites (voir tableau ci-aprs). Lon notera que non seulement cette mthode est utilisable pour laide au calcul dattachement prpositionnel, mais aussi au calcul de dpendance au verbe pour une diffrenciation entre groupe prpositionnel dpendant du groupe nominal qui le prcde et groupe prpositionnel dpendant du verbe.</p>  <p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></p>  <h1><![if !supportLists]>4.<span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp; </span><![endif]>Critique</h1>  <p class=MsoNormal>Cette approche a toutefois le dfaut dtre extrmement dpendante du type de document trait. Ainsi, nous montrerons comment une telle approche savre efficace pour des corpus journalistiques (par exemple sur le corpus Le Monde), tandis quelle est quasi-inutile dans le cadre danalyse de corpus spciaux, notamment dans certains domaines conomiques ou techniques tel les corpus Boeing-Airbus, ensemble de dpches AFP relatives  ces constructeurs.</p>  <p class=MsoNormal>Enfin, cette approche sous-entend que lInternet soit une source de donnes textuelles correctement orthographies et grammatises. Enfin, lon peut opposer lide quune telle validation de mise en relation syntaxique par le biais des cooccurrences sur gros volume textuel (quel quil soit), se base uniquement sur un principe de vote majoritaire et ne tient pas compte de lexception et de la stylistique.</p>  <p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></p>  <b><span style='font-size:16.0pt;font-family:Times;mso-fareast-font-family: "Times New Roman";mso-bidi-font-family:"Times New Roman";mso-ansi-language: FR;mso-fareast-language:FR;mso-bidi-language:AR-SA'><br clear=all style='mso-special-character:line-break;page-break-before:always'> </span></b>  <p class=MsoTitle><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></p>  </div>  </body>  </html> 
