<!doctype html public "-//w3c//dtd html 4.0 transitional//en"> <html> <head>    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">    <meta name="Author" content="Serge Heiden">    <meta name="GENERATOR" content="Mozilla/4.75 [en] (Win95; U) [Netscape]">    <title>Manuel WEBLEX : recherche et navigation</title> </head> <body BGCOLOR="#FFFFFF">  <h1> <br> <br> <font face="Arial,Helvetica">Chapitre 4</font></h1>  <center> <h1> <a NAME="navigation"></a><font face="Arial,Helvetica">Recherche et navigation dans le corpus</font></h1></center> <b><font face="Arial,Helvetica"><font size=+2>10.&nbsp;<a NAME="edition"></a>&Eacute;dition du corpus</font></font></b> <p>Tout corpus int&eacute;gr&eacute; &agrave; <i>Weblex</i> peut disposer d'une &eacute;dition pagin&eacute;e <sup><font size=-2><a href="#note-edition">1</a></font></sup>&nbsp; (donc au format HTML). Le r&ocirc;le de cette &eacute;dition est &agrave; la fois de rendre compte le mieux possible du facsimil&eacute; du texte &agrave; l'origine du corpus pour rendre sa lecture au fil du texte si possible authentique et confortable (dans la mesure o&ugrave; celle d'origine l'&eacute;tait et o&ugrave; le format HTML est suffisant pour en rendre compte), mais surtout d'offrir un contexte de concordances le plus large possible. En effet, au del&agrave; d'une certaine taille de contextes de concordances, nous estimons qu'il devient pr&eacute;f&eacute;rable de naviguer directement au fil du texte. Bien sur ceci est laiss&eacute; au libre arbitre du chercheur dans la mesure o&ugrave; la taille de contextes des concordances n'a pas de limite dans <i>weblex</i>. La lecture de l'&eacute;dition permet, de plus, de v&eacute;rifier la qualit&eacute; de son int&eacute;gration dans <i>weblex</i>. <br>La pagination est r&eacute;alis&eacute;e selon les param&egrave;tres de l'int&eacute;gration : <ul> <li> soit sur la base d'un encodage dans le corpus avant son int&eacute;gration. Par exemple &agrave; l'aide de l'&eacute;l&eacute;ment <font face="Courier New,Courier">&lt;PAGE N=10></font> pour encoder le d&eacute;but de la page num&eacute;ro 10 (voir le format LML) ;</li>  <li> soit selon une segmentation automatique garantissant un nombre maximum d'occurrences par page. La pagination d'origine (si elle a exist&eacute;) n'est alors plus respect&eacute;e. Ce type de pagination (ou de segmentation en pages) permet de contr&ocirc;ler la dimension des pages d'&eacute;dition pour le t&eacute;l&eacute;chargement. En effet, &agrave; titre d'exemple, on consid&egrave;re qu'une page HTML d'une taille plus grande que 10Ko devient trop lente &agrave; t&eacute;l&eacute;charger pour une navigation confortable &agrave; partir de clients Internet usuels (cf. Alert Box). Remarque : une pagination ind&eacute;pendante de celle du facsimil&eacute; d'origine ne remet pas en cause l'&eacute;ventuelle utilisation des num&eacute;ros de page d'origine dans les r&eacute;f&eacute;rences de concordances. Cela d&eacute;pend des choix d'int&eacute;gration.</li> </ul> L'ensemble des traits typographiques disponibles pour la mise en page en ligne correspondent &agrave; l'int&eacute;gralit&eacute; de ceux du langage HTML (voir le format LML) : <ul> <li> paragraphes, sauts de ligne ;</li>  <li> police, italique, gras, couleur, ... ;</li>  <li> niveaux de titres, listes, tableaux ;</li>  <li> ... ;</li>  <li> mais aussi images, liens hypertextes, formulaires, ...</li> </ul> Certains corpus &eacute;tiquet&eacute;s peuvent disposer, de plus, d'un encodage couleur des cat&eacute;gories morpho-syntaxiques de chaque unit&eacute; lexicale. <br>Chaque page de l'&eacute;dition en ligne est compos&eacute;e de : <ul> <li> la r&eacute;f&eacute;rence de la page en haut &agrave; droite. La r&eacute;f&eacute;rence affich&eacute;e est compos&eacute;e &agrave; la fois de celle des concordances, qui a &eacute;t&eacute; choisie au moment de l'int&eacute;gration du corpus dans <i>weblex</i>, et qui permet en g&eacute;n&eacute;ral de se situer dans le document d'origine, et du num&eacute;ro d'ordre de la page dans l'ensemble des pages de l'&eacute;dition en ligne (s&eacute;par&eacute; de la r&eacute;f&eacute;rence bibliographique par un caract&egrave;re " / " et qui peut, ou non, correspondre au num&eacute;ro de page bibliographique (c'est-&agrave;-dire &agrave; celui du facsimil&eacute; de l'&eacute;dition d'origine)) ;</li>  <li> de son contenu dans la mise en page et la typographie choisies ;</li>  <li> de liens hypertextes (pr&eacute;sent&eacute;s en haut puis r&eacute;p&eacute;t&eacute;s en bas de la page) qui permettent d'acc&eacute;der directement &agrave; la page suivante et &agrave; la page pr&eacute;c&eacute;dente. Le num&eacute;ro d'ordre de la page, quant &agrave; lui &eacute;ditable dans un mini formulaire (qu'il suffit d'ouvrir en cliquant sur le num&eacute;ro de la page), permet d'acc&eacute;der directement &agrave; une page quelconque en saisissant son num&eacute;ro puis en validant avec Entr&eacute;e (ou Return).</li> </ul> La commande [Edition] du formulaire donne un acc&egrave;s direct &agrave; la premi&egrave;re page de l'&eacute;dition en ligne. Cette premi&egrave;re page, ou page de garde, pr&eacute;sente le titre du corpus, son nombre total de pages et donne acc&eacute;s aux pages suivantes par des liens hypertextuels. <p>Exemple de page d'&eacute;dition comportant une image et correspondant &agrave; un extrait d'un journal Le Monde dat&eacute; du 13 Ao&ucirc;t 1992. Cette page est la 67<sup>i&egrave;me</sup> du corpus PURIF2-ENONCE-SUP-MDE qui constitue l'extrait d'&eacute;nonc&eacute;s (ENONCE) du journal "Le Monde" (MDE) d'un corpus d'&eacute;tude (PURIF2) sur l'expression de la notion de "purification ethnique" contrastant diverses publications ou supports (SUP). Elle se compose d'une image et de son commentaire qui est &agrave; l'origine du rep&eacute;rage de la page par une concordance de la forme "dessin"&nbsp; (mise en &eacute;vidence dans l'&eacute;dition) dans le corpus (voir l'exemple de la concordance correspondante : <a href="#conc-purif2">concordance de la forme "dessin"</a> ci dessous). En dehors de la mise en &eacute;vidence (induite par l'acc&egrave;s direct &agrave; cette page &agrave; travers un lien hypertextuel associ&eacute; &agrave; une r&eacute;f&eacute;rence d'une des lignes de la concordance), en casse grasse, de la forme "dessin" dans la page, la typographie d'origine du corpus (ici choisie par le chercheur) est respect&eacute;e : italiques, gras, ... : <center><a NAME="edition-purif2"></a><img SRC="purif-edit.gif" height=657 width=642 align=TEXTTOP></center>  <p> <hr ALIGN=LEFT SIZE=1 NOSHADE WIDTH="30%"> <br><a NAME="note-edition"></a><sup>1</sup> <font size=-1>Pour des raisons de copyright ou de droits d'&eacute;dition, par exemple, on peut vouloir ne pas choisir cette option au moment de l'int&eacute;gration du corpus dans <i>weblex.</i></font> <br>&nbsp; <p><b><font face="Arial,Helvetica"><font size=+2>11.&nbsp;<a NAME="editionp"></a>&Eacute;dition en ligne du corpus</font></font></b> <p>L'&eacute;dition en ligne [Editionp] calcule au moment de son appel une page HTML rendant compte de toutes les informations disponibles sur les occurrences du corpus. Il permet, par exemple, de visualiser les cat&eacute;gories morpho-syntaxiques associ&eacute;es &agrave; chaque occurrence ainsi que les limites de phrases, qui sont exploit&eacute;es dans les expressions CQP. <br>Dans le formulaire, le nombre de lignes affich&eacute;es dans les r&eacute;sultats permet de restreindre le nombre de phrases g&eacute;n&eacute;r&eacute;es. <br>Il s'agit encore d'un outil rudimentaire. <br>&nbsp; <p><b><font face="Arial,Helvetica"><font size=+2>12.&nbsp;<a NAME="conc"></a>Concordances d'une expression CQP</font></font></b> <p>Les concordances calcul&eacute;es automatiquement ne sauraient pr&eacute;tendre concurrencer l'&eacute;dition raisonn&eacute;e de concordances d'une monographie avec toutes les informations et le savoir-faire du facteur de concordances qui les a produites. Les concordances de <i>weblex</i>, calcul&eacute;es automatiquement, tentent malgr&eacute; tout de faire de leur mieux l&agrave; o&ugrave; la machine est la plus performante : <ul> <li> en permettant d'exprimer une expression de recherche pr&eacute;cise portant sur une s&eacute;quence d'occurrences quelconque (&agrave; comparer &agrave; la concordance globale classique) m&ecirc;lant simultan&eacute;ment la morphologie et les propri&eacute;t&eacute;s des occurrences et pouvant les contraindre &agrave; se trouver dans un contexte particulier (voir la syntaxe du langage d'expression <a href="#syntaxe">CQP</a> pour la formulation des requ&ecirc;tes) ;</li>  <li> en offrant des tris multi-crit&egrave;res des contextes de l'expression recherch&eacute;e afin d'obtenir rapidement une synth&egrave;se des diff&eacute;rents contextes&nbsp; d'apparition (&agrave; comparer &agrave; l'ordre standard des concordances classiques) (voir les param&egrave;tres de tri des <a href="formulaire.html#affichage-concordance">concordances dans la documentation du formulaire</a>) ;</li>  <li> en facilitant l'acc&egrave;s au contexte &eacute;largi de chaque occurrence du pivot gr&acirc;ce &agrave; un lien hypertextuel renvoyant directement &agrave; la lecture de la page de l'&eacute;dition, avec une mise en &eacute;vidence de la ou des occurrences du pivot ;</li>  <li> en offrant un niveau de pr&eacute;cision quelconque du rep&eacute;rage des expressions recherch&eacute;es en permettant &agrave; l'int&eacute;grateur du corpus de d&eacute;finir &agrave; sa convenance la r&eacute;f&eacute;rence que prendra chaque ligne de concordance ;</li>  <li> en proposant une &eacute;dition confortable et souple &agrave; la lecture : &agrave; l'aide de la typographie HTML, des ascenseurs, ...</li> </ul> Le moteur de recherche &eacute;labor&eacute; de <i>weblex</i> repose sur celui de l'outil CQP de l'institut IMS de l'Universit&eacute; de Stuttgart. CQP a &eacute;t&eacute; con&ccedil;u par Oliver Christ (ref). <br>L'affichage des concordances comporte trois param&egrave;tres (pour une description pr&eacute;cise des r&eacute;glages voir <a href="formulaire.html#affichage-concordance">affichage des concordances</a>) : <ul> <li> le nombre de caract&egrave;res composant les contextes &agrave; gauche du pivot (un contexte s'interrompra toujours sur une fronti&egrave;re d'occurrence) ;</li>  <li> le nombre de caract&egrave;res composant les contextes &agrave; droite du pivot ;</li>  <li> le type de formatage du texte des contextes et des pivots.</li> </ul> Les concordances peuvent &ecirc;tre tri&eacute;es jusqu'&agrave; 4 cl&eacute;s de tri successives selon les 5 champs composant chaque ligne de concordance, soit respectivement de gauche &agrave; droite : <ul> <li> R&eacute;f&eacute;rence : la r&eacute;f&eacute;rence dans le corpus de l'occurrence du texte du pivot. Cette r&eacute;f&eacute;rence &agrave; &eacute;t&eacute; construite au moment de l'int&eacute;gration du corpus dans weblex. Son contenu et son format d&eacute;pendent des choix d'int&eacute;gration du corpus. En g&eacute;n&eacute;ral ses composantes sont s&eacute;par&eacute;es par une virgule ;</li>  <li> Segment : le num&eacute;ro de page dans l'&eacute;dition en ligne du corpus (s&eacute;par&eacute; de la r&eacute;f&eacute;rence par un caract&egrave;re &laquo;/&raquo;). Page vers laquelle la r&eacute;f&eacute;rence est elle-m&ecirc;me un lien hypertextuel. La num&eacute;rotation des segments est ind&eacute;pendante des choix de construction de la r&eacute;f&eacute;rence au moment de l'int&eacute;gration du corpus ;</li>  <li> Contexte gauche : le texte situ&eacute; &agrave; la gauche du pivot, align&eacute; &agrave; droite (contre le pivot) ;</li>  <li> Pivot : le pivot mis en &eacute;vidence (en casse grasse par d&eacute;faut) et centr&eacute;. Le texte du pivot correspond &agrave; la suite des occurrences du corpus correspondant &agrave; la requ&ecirc;te du moteur de recherche. Dans le cas d'expressions CQP contenant des portions g&eacute;n&eacute;riques, le texte du pivot est de taille variable.</li>  <li> Contexte droit : le texte situ&eacute; &agrave; la droite du pivot, align&eacute; &agrave; gauche (contre le pivot).</li> </ul> Exemples de pr&eacute;sentation de concordances : <center> <p><a NAME="conc-purif2"></a><img SRC="purif-conc.gif" height=413 width=647 align=TEXTTOP> <br>Un extrait d'une concordance de la forme "dessin" dans un corpus d'extraits d'articles du journal Le Monde. En cliquant sur la r&eacute;f&eacute;rence <i><u>MDE_13-08-92, p. 67</u></i> l'utilisateur acc&egrave;de directement &agrave; la page de l'&eacute;dition correspondante (voir l'<a href="#edition-purif2">exemple de page d'&eacute;dition</a> ci dessus).</center>  <p><br> <center> <h3> Corpus cfdt73<br> <i>aspirations</i> : 8 occurrences</h3></center>  <hr> <br>&nbsp; <table BORDER=0 CELLSPACING=0 > <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=3&ref=1">1, p. 3</a></i></td>  <td VALIGN=CENTER> <div align=right>contribue &agrave; l' &eacute;laboration d' un projet socialiste qui correspond aux&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>des travailleurs et &agrave; leurs exigences concr&egrave;tes : il appelle une confrontation avec&nbsp;</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=6&ref=1">1, p. 6</a></i></td>  <td VALIGN=CENTER> <div align=right>ce type d' action suppose : un syndicalisme bien en prise sur les&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>et les r&eacute;actions des travailleurs &agrave; la base ; la n&eacute;cessit&eacute; d' analyser s&eacute;rieusement le&nbsp;</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=8&ref=1">1, p. 8</a></i></td>  <td VALIGN=CENTER> <div align=right>de mettre en oeuvre la d&eacute;mocratie collective , la prise en charge des&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>de toutes les cat&eacute;gories et leur synth&egrave;se dans une action d&eacute;mocratique unitaire&nbsp;</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=8&ref=1">1, p. 8</a></i></td>  <td VALIGN=CENTER> <div align=right>l' organisation int&egrave;gre en permanence leurs besoins et leurs&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>dans la d&eacute;finition des objectifs revendicatifs et des m&eacute;thodes d' action .&nbsp;</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=10&ref=1">1, p. 10</a></i></td>  <td VALIGN=CENTER> <div align=right>plus vite se r&eacute;aliseront les revendications , les espoirs et les&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>de la classe ouvri&egrave;re , plus vite se cr&eacute;eront les conditions d' une efficace unit&eacute;&nbsp;</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=18&ref=1">1, p. 18</a></i></td>  <td VALIGN=CENTER> <div align=right>, en dons d' armements , venant de peuples partageant les m&ecirc;mes&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>et le m&ecirc;me id&eacute;al de libert&eacute; , aux peuples opprim&eacute;s ; persiste n&eacute;anmoins dans l'&nbsp;</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=21&ref=1">1, p. 21</a></i></td>  <td VALIGN=CENTER> <div align=right>le m&eacute;pris du droit des peuples . la CFDT se d&eacute;clare solidaire des&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>du peuple palestinien &agrave; la reconnaissance de ses droits fondamentaux , de</td> </tr>  <tr> <td VALIGN=CENTER><i><a href="http://lexico.ens-lsh.fr/cgi-bin/prw.sh?pole=aspirations&file=s/cfdt73/html/CFDT73&seg=21&ref=1">1, p. 21</a></i></td>  <td VALIGN=CENTER> <div align=right>solution possible au drame du Proche-Orient que par la prise en compte des&nbsp;</div> </td>  <td VALIGN=CENTER><b>aspirations</b></td>  <td VALIGN=CENTER>nationales de tous les peuples concern&eacute;s , les peuples arabes comme le peuple isra&eacute;lien&nbsp;</td> </tr> </table>  <center> <p>Concordance de la forme "aspirations" dans le congr&egrave;s CFDT de 1973</center>  <h3> <a NAME="syntaxe"></a><font face="Arial,Helvetica">Syntaxe et usage du langage d'interrogation du moteur de recherche CQP</font></h3> Le langage du moteur de recherche permet d'exprimer l'apparition d'occurrences d'&eacute;v&eacute;nements dont la morphologie, les propri&eacute;t&eacute;s et le contexte sont sp&eacute;cifi&eacute;s dans un filtre &eacute;crit dans un langage original. C'est la richesse des possibilit&eacute;s d'expression qui permet de qualifier ce filtre de "langage formel" d'interrogation. L'expression, dans ce langage, ob&eacute;it &agrave; une syntaxe formelle qui sera introduite progressivement dans cette section puis reprise exhaustivement dans une <a href="refregexpcqp.html">section de r&eacute;f&eacute;rence</a>. Mais gardez &agrave; l'esprit que cette syntaxe n'est qu'un substrat (parmi d'autres) d'un esprit d'interrogation ou de d&eacute;signation particulier con&ccedil;u sp&eacute;cifiquement pour la recherche d'&eacute;v&eacute;nements textuels. Dans la suite de ce manuel nous d&eacute;signerons indiff&eacute;rement le filtre de recherche par "requ&ecirc;te de recherche CQP" ou "expression d'une succession d'occurrences" ou "expression CQP". Le nom CQP est form&eacute; des initiales du nom Corpus Query Processor, soit litt&eacute;ralement "processeur de requ&ecirc;tes de corpus". <br>Il est <b>important</b> de noter qu'&agrave; l'arriv&eacute;e dans <i>weblex</i> les occurrences sont d&eacute;j&agrave; identifi&eacute;es et donc segment&eacute;es et pr&eacute;-index&eacute;es. Par ailleurs, le b&eacute;n&eacute;fice du typage (ou de l'&eacute;tiquetage de propri&eacute;t&eacute;s au sens large) des occurrences dans <i>weblex</i> d&eacute;pend des op&eacute;rations de codage r&eacute;alis&eacute;es sur le corpus (voir la section <font face="Arial,Helvetica"><a href="http://lexico.ens-lsh.fr/doc/codeur/index.html#machinal">LML</a></font>du manuel du<font face="Arial,Helvetica"> </font><a href="http://lexico.ens-lsh.fr/doc/codeur/index.html">Codeur</a>). Par d&eacute;faut un corpus n'est pas &eacute;tiquet&eacute;. <br>La recherche d'une expression CQP s'effectue dans la totalit&eacute; du corpus pour n'importe quelle suite d'occurrences. Nous allons progressivement pr&eacute;senter dans cette section les caract&eacute;ristiques fondamentales de l'expression de la morphologie des occurrences de <i>formes</i> dans le corpus. La g&eacute;n&eacute;ralisation &agrave; l'expression de l'ensemble des propri&eacute;t&eacute;s d'une occurrence (lemme, partie du discours, propri&eacute;t&eacute; li&eacute;e &agrave; une probl&eacute;matique de recherche, ...) sera l'objet d'une section plus avanc&eacute;e. Enfin une <a href="refregexpcqp.html">section de r&eacute;f&eacute;rence</a> pr&eacute;sentera exhaustivement toutes les possibilit&eacute;s d'expression du langage CQP. <h4> <a NAME="morpho"></a><font face="Arial,Helvetica">Expression de la morphologie des formes des occurrences recherch&eacute;es</font></h4> La propri&eacute;t&eacute; fondamentale (et l'int&eacute;r&ecirc;t premier) du langage CQP est sont double niveau de g&eacute;n&eacute;ricit&eacute; dans l'expression des requ&ecirc;tes de recherche. <br>&nbsp; Par g&eacute;n&eacute;ricit&eacute; nous entendons la possibilit&eacute; de d&eacute;noter partiellement l'occurrence d'un &eacute;v&eacute;nement. Par exemple on peut exprimer dans ce langage "je d&eacute;sire avoir &agrave; cet endroit dans l'expression l'occurrence d'une forme <i>se terminant</i> par les caract&egrave;res '<b>ent</b>' ". Cette expression partielle de la forme (on ne s'int&eacute;resse ici qu'&agrave; sa terminaison) permettra &agrave; toutes les occurrences de formes se terminant en 'ent' d'&ecirc;tre candidates au r&eacute;sultat de la recherche. Si, pour le corpus &eacute;tudi&eacute;, la terminaison en 'ent' peut s'interpr&eacute;ter comme &eacute;tant l'apparition d'un &eacute;v&eacute;nement particulier (ici grossi&egrave;rement la troisi&egrave;me personne du pluriel de la conjugaison de verbes) et homog&egrave;ne (attention aux ambigu&iuml;t&eacute;s, ici fin d'adverbe ou de substantif par exemple), alors l'expression CQP exprimera l'apparition d'&eacute;v&eacute;nements plus g&eacute;n&eacute;raux que la simple apparition d'une forme particuli&egrave;re. Pour justifier la pertinence de cet exemple simple il faut noter que l'expression d'autres contraintes dans l'expression permet souvent de limiter la recherche &agrave; l'apparition de l'&eacute;v&eacute;nement voulu malgr&eacute; les recoupements possibles avec l'apparition d'autres &eacute;v&eacute;nements ind&eacute;sirables. Par ailleurs ce langage permet d'exprimer des morphologies plus contraintes &agrave; travers un pr&eacute;fixe, des caract&egrave;res constituants, une 'racine' particuli&egrave;re, etc... Enfin le recoupement avec l'expression simultan&eacute;e d'autres propri&eacute;t&eacute;s des occurrences sert souvent &agrave; sp&eacute;cifier plus encore la recherche. La g&eacute;n&eacute;ricit&eacute; de l'expression de la propri&eacute;t&eacute; d'une occurrence (par exemple ici sa forme) constitue le premier niveau de g&eacute;n&eacute;ricit&eacute; du langage. <br>&nbsp; Le deuxi&egrave;me niveau de g&eacute;n&eacute;ricit&eacute; porte sur l'expression des contraintes caract&eacute;risant les occurrences elles-m&ecirc;mes et leur nombre. Par exemple on peut exprimer dans ce langage "je d&eacute;sire avoir <i>entre 1 et 3</i> occurrences particuli&egrave;res entre telles occurrences" ou bien "<i>&eacute;ventuellement</i> une occurrence particuli&egrave;re ici dans l'expression". <br>Nous allons maintenant introduire progressivement ces deux niveaux d'expression qui s'imbriquent naturellement. <ul> <li> Premier niveau</li> </ul>  <ul> <ul> <li> pour l'expression d'un <i><font color="#000000">mot unique</font></i> le filtre correspond &agrave; la forme cit&eacute;e litt&eacute;ralement (pour rester homog&egrave;ne avec l'expression des p&ocirc;les de lexicogrammes).</li>  <ul>- par exemple, pour obtenir la concordance de toutes les occurrences de la forme &laquo;immigr&eacute;&raquo; dans le texte, on saisit dans le champ <br>Source A : <b><tt>immigr&eacute;</tt></b></ul>  <li> pour un ensemble de formes correspondants &agrave; un <i><font color="#000000">patron lexical</font></i> unique le filtre correspond &agrave; une <a href="regexp.html">expression r&eacute;guli&egrave;re</a>.</li>  <ul>- par exemple, pour obtenir la concordance de toutes les occurrences de formes ayant pour racine &laquo;immigr&raquo;, on saisit dans le champ <br>Source : <b><tt>immigr.*</tt></b> <br>(le caract&egrave;re <tt>.</tt> signifie "n'importe quel caract&egrave;re de l'alphabet ou autre". Le caract&egrave;re <b><tt>*</tt></b> signifie "entre 0 et n occurrences de l'expression se trouvant syntaxiquement &agrave; gauche dans le filtre (ici le point "<tt>.</tt>"). Donc, en tout, les caract&egrave;res i, m, m, i, g, r suivis &eacute;ventuellement d'autres caract&egrave;res) <br>- autre exemple, pour obtenir la concordance de toutes les occurrences soit de la forme "environnement", soit "ENVIRONNEMENT" ou "Environnement", on saisit dans le champ <br>Source : <b><tt>"environnement|ENVIRONNEMENT|Environnement"</tt></b> <br>(le caract&egrave;re <b><tt>|</tt></b> d&eacute;note la disjonction entre plusieurs expressions r&eacute;guli&egrave;res. Soit ici le choix entre les formes "environnement", "ENVIRONNEMENT" ou encore "Environnement". Le caract&egrave;re <b><tt>"</tt></b> d&eacute;limite l'expression d'une seule occurrence) <br>(voir aussi pour cet exemple la section <font face="Arial,Helvetica"><font size=-1><a href="#modUsuCond">Modifieurs usuels des conditions portant sur les valeurs de propri&eacute;t&eacute;s</a></font></font>)</ul> </ul>  <li> Deuxi&egrave;me niveau</li>  <ul> <li> pour une <i><font color="#000000">succession de n mots</font></i>, on encadre les expressions pr&eacute;c&eacute;dentes par un caract&egrave;re <b><tt><font size=+1>"</font></tt></b> et on &eacute;num&egrave;re les filtres de chaque mot.</li>  <ul>- par exemple, pour obtenir la concordance de toutes les occurrences de la lexie &laquo;immigration irr&eacute;guli&egrave;re&raquo;, on saisit dans le champ <br>Source : <b><tt><font size=+1>"</font>immigration<font size=+1>""</font>irr&eacute;guli&egrave;re<font size=+1>"</font></tt></b> <br>- pour les racines, on saisit <br>Source : <b><tt><font size=+1>"</font>immigr.*<font size=+1>""</font>irr&eacute;guli.*<font size=+1>"</font></tt></b></ul>  <li> comme on peut s'en douter, intuitivement, le filtre <b><tt><font size=+1>"</font>.*<font size=+1>"</font></tt></b>repr&eacute;sente un <i><font color="#000000">mot quelconque</font></i>. Qui s'exprime aussi <b><tt>[]</tt></b>.</li>  <li> le filtre <b><tt>[]* </tt></b>repr&eacute;sente un <i><font color="#000000">nombre quelconque de mots</font></i> (&eacute;ventuellement nul).</li>  <ul>- par exemple, pour obtenir la concordance de toutes les occurrences d'une succession de &laquo;lutt-&raquo; suivi de &laquo;immigr-&raquo; &eacute;ventuellement s&eacute;par&eacute;s par quelques mots, on saisit dans le champ <br>Source : <b><tt><font size=+1>"</font>lutt.*<font size=+1>"</font> []* <font size=+1>"</font>immigr.*<font size=+1>"</font></tt></b></ul> </ul> </ul>  <ul><a NAME="note1"></a>Note 1 : Comme la segmentation du texte a d&eacute;j&agrave; &eacute;t&eacute; r&eacute;alis&eacute;e avant l'entr&eacute;e dans <i>weblex</i>, on peut ou non avoir des mots compos&eacute;s dont les &eacute;l&eacute;ments sont s&eacute;par&eacute;s par des blancs. Par exemple, la recherche de la lexie &laquo;pomme de terre&raquo; s'exprimera <b><tt><font size=+1>"pomme de terre"</font></tt></b> si le segmenteur a reconnu cette lexie en tant que telle ou bien <b><tt><font size=+1>"pomme" "de" "terre" </font></tt></b>si le segmenteur n'a pas compos&eacute; les mots. En ce qui concerne le moteur de recherche, un mot peut &ecirc;tre compos&eacute; de n'importe quel caract&egrave;re qui ne soit pas un op&eacute;rateur d'expression r&eacute;guli&egrave;re, l'espace <b><tt><font size=+1>" " </font></tt></b>en est un exemple. <p>Note 2 : Le deuxi&egrave;me niveau de g&eacute;n&eacute;ricit&eacute; du langage d'interrogation (celui des occurrences) entra&icirc;ne naturellement une variation dans la longueur (en nombre d'occurrences) des &eacute;v&eacute;nements textuels recens&eacute;s. Ce qui peut parfois surprendre pour certains calculs classiques comme celui des concordances. Tous les r&eacute;sultats des calculs de <i>weblex</i> portant sur des expressions CQP (concordances, index, r&eacute;partition, sp&eacute;cificit&eacute;s, ...) sont format&eacute;s en cons&eacute;quence. Dans l'impl&eacute;mentation actuelle de <i>weblex</i> le caract&egrave;re s&eacute;parateur d'occurrences est l'espace.</ul>  <h4> <a NAME="contexte"></a><font face="Arial,Helvetica">Expression des limites du contexte de recherche</font></h4> Par d&eacute;faut, la recherche des occurrences correspondant &agrave; une expression est r&eacute;alis&eacute;e dans l'ensemble du texte. Dans le cas de filtres g&eacute;n&eacute;riques, par exemple contenant des expressions de la forme <b><tt>[]*</tt></b> qui peuvent "attraper" un nombre variable d'occurrences, la partie de texte variable aura une taille maximale pr&eacute;d&eacute;finie et fixe (typiquement de l'ordre de 3000 occurrences maximum). <br>Pour limiter les expansions de recherches &agrave; une fen&ecirc;tre d'occurrences de taille fixe, l'op&eacute;rateur <b><tt>within</tt></b> permet de choisir la dimension voulue. Ceci permet de limiter l'expansion de toutes les parties g&eacute;n&eacute;riques de filtres (termin&eacute;es en <b><tt>*</tt></b>,<b><tt> +</tt></b>, etc). <br>- par exemple les r&eacute;sultats de la recherche de l'expression <b><tt>"lutt.*" []* "immigr.*" within 10</tt></b> seront compos&eacute;s d'au plus 10 occurrences. <br>Cet op&eacute;rateur permet aussi de borner les recherches d'expressions aux limites de la macro-structure du texte du corpus. Par exemple, pour limiter les recherches aux contenus de phrases on peut utiliser l'op&eacute;rateur <b><tt>within s</tt></b> (s pour "sentence") qui contraint l'ensemble du filtre &agrave; se r&eacute;aliser &agrave; l'int&eacute;rieur d'une phrase. <br>- par exemple, pour contraindre la recherche de &laquo;lutt-&raquo; suivi de &laquo;immigr-&raquo; &agrave; des occurrences se trouvant dans la m&ecirc;me phrase, on saisit dans le champ <br>Source : <b><tt><font size=+1>"</font>lutt.*<font size=+1>"</font> []* <font size=+1>"</font>immigr.*<font size=+1>" within s</font></tt></b> <br>C'est ce type de filtre que nous utilisons pour d&eacute;clencher les calculs de concordances de cooccurrents &agrave; partir des lexicogrammes. <br>Les outils d'extraction de corpus de la textoth&egrave;que LML permettront de cr&eacute;er d'autres types de contextes que la phrase au moment de l'int&eacute;gration du corpus dans <i>weblex</i> (par exemple : des limites de syntagmes, de paragraphes, de sections, ...). <h4> <a NAME="general"></a><font face="Arial,Helvetica">Expression g&eacute;n&eacute;rale de toutes les propri&eacute;t&eacute;s des occurrences<font size=+1> </font>(forme, lemme, partie du discours, ...)</font></h4> Le moteur de recherche CQP permet non seulement de rechercher des occurrences dans un corpus en fonction de la morphologie de leur forme lexicale (recherche dont la pr&eacute;sentation &eacute;tait l'objet de la section pr&eacute;c&eacute;dente) mais surtout en fonction de la valeur de n'importe quelle propri&eacute;t&eacute; leur &eacute;tant associ&eacute;e : partie du discours, lemme, propri&eacute;t&eacute; s&eacute;mantique, pragmatique, propre &agrave; des hypoth&egrave;ses de recherche, etc. La disponibilit&eacute; de <b>toutes</b> ces propri&eacute;t&eacute;s (&agrave; part la forme syst&eacute;matiquement pr&eacute;sente) d&eacute;pend du travail d'encodage du corpus r&eacute;alis&eacute; en amont de <i>weblex</i>. <h4> <a NAME="expOcc"></a><font face="Arial,Helvetica">Expression d'occurrence</font></h4> On nomme "expression d'occurrence" une expression entre crochets (car elle ne peut d&eacute;signer qu'une seule position dans le corpus &agrave; la fois). Cette expression est compos&eacute;e de conditions sur les valeurs des propri&eacute;t&eacute;s de l'occurrence. Par exemple la condition "<b><tt>pos!="verbe"</tt></b>" impose &agrave; l'occurrence candidate de ne pas &ecirc;tre un verbe (c'est-&agrave;-dire plus prosa&iuml;quement que la valeur de la propri&eacute;t&eacute; <b><tt>pos</tt></b> de l'occurrence ne doit pas &ecirc;tre <b><tt>verbe</tt></b>). La contrainte sur la valeur d'une propri&eacute;t&eacute; s'exprime soit avec des op&eacute;rateurs bool&eacute;ens : &eacute;galit&eacute; "<b><tt>=</tt></b>", diff&eacute;rence "<b><tt>!=</tt></b>" ; soit avec des op&eacute;rateurs de comparaison d'ordre : plus grand que ou &eacute;gal &agrave; "<b><tt>>=</tt></b>", etc ("<b><tt>></tt></b>", "<b><tt>&lt;=</tt></b>", "<b><tt>&lt;</tt></b>"). La valeur demand&eacute;e (&agrave; droite dans l'expression) est une <i><a href="regexp.html">expression r&eacute;guli&egrave;re</a></i> quelconque. Ceci offre ce que nous avons appel&eacute; la g&eacute;n&eacute;ricit&eacute; d'expression de premier niveau de toutes les propri&eacute;t&eacute;s d'occurrences. <br>A l'int&eacute;rieur de cette expression les valeurs de propri&eacute;t&eacute;s sont composables avec une disjonction "<b><tt>|</tt></b>", une conjonction "<b><tt>&amp;</tt></b>", la negation "<b><tt>!</tt></b>" et le regroupement avec les parenth&egrave;ses "<b><tt>(</tt></b>" ... "<b><tt>)</tt></b>". Par exemple, l'expression : <br><b><tt>[(lem="lutte" | lem="combat") &amp; p4="pluriel"]</tt></b> <br>exprime l'apparition d'occurences dont le lemme est soit 'lutte' soit 'combat' et dont le trait p4 &agrave; la valeur 'pluriel' (on suppose , dans cet exemple, que la propri&eacute;t&eacute; 'p4' du corpus d&eacute;note le trait "nombre" de l'occurrence et que ses valeurs sont soit "pluriel" soit "singulier"). <h5> <a NAME="desAbbForm"></a><font face="Arial,Helvetica">D&eacute;signation abbr&eacute;g&eacute;e de la forme des occurrences</font></h5> D'apr&egrave;s la syntaxe pr&eacute;c&eacute;dente l'expression d'occurrences dont la forme commence, par exemple, par le caract&egrave;re "l" devrait ressembler &agrave; quelque-chose comme [word="l.*"] (la propri&eacute;t&eacute; word encode toujours la forme des occurrences du corpus). Dans la mesure o&ugrave; la forme des occurrences est souvent exprim&eacute;e dans les expressions d'occurrences, un admet qu'une expression d'occurrence de la forme "l.*" est &eacute;quivalente, implicitement, &agrave; l'expression compl&egrave;te [word="l.*"]. C'est-&agrave;-dire que lorsqu'on ne pr&eacute;cise pas de quelle propri&eacute;t&eacute; on d&eacute;sire la valeur dans une expression il s'agit implicitement de celle de la forme. <br>Cette r&egrave;gle explique l'&eacute;criture de tous les exemples de la section <font face="Arial,Helvetica"><font size=-1><a href="#morpho">Expression de la morphologie des formes des occurrences recherch&eacute;es</a></font>.</font> <h5> <a NAME="modUsuCond"></a><font face="Arial,Helvetica">Modifieurs usuels des conditions portant sur les valeurs de propri&eacute;t&eacute;s</font></h5> Toute condition portant sur les valeurs d'une propri&eacute;t&eacute; peut &ecirc;tre assortie d'un modifieur changeant l&eacute;g&egrave;rement l'interpr&eacute;tation des valeurs d&eacute;sir&eacute;es. Ce modifieur doit toujours &ecirc;tre plac&eacute; &agrave; la fin de la condition. <br>Le langage CQP propose deux modifieurs usuels tr&egrave;s pratiques : <ul> <li> la possibilit&eacute; de ne pas diff&eacute;rencier la casse des caract&egrave;res (minuscule/majuscule) dans les chaines de caract&egrave;res analys&eacute;es : modifieur " <b><tt>%c</tt></b> "</li>  <br>- par exemple, l'expression <b><tt>[word="environnement.*"%c]</tt></b> recherchera toutes les occurrences des formes de racine "environnement" quelle que soit la casse : environnement, environnements, Environnement, ENVIRONNEMENTS, etc. <li> la possibilit&eacute; de ne pas diff&eacute;rencier les signes diacritiques pos&eacute;s sur certaines lettres de l'alphabet : modifieur " <b><tt>%d</tt></b> "</li>  <br>- par exemple, l'expression <b><tt>[word="e.*e"%d]</tt></b> recherchera toutes les occurrences des formes commen&ccedil;ant par une des lettres "e", "&eacute;", "&egrave;", "&ecirc;", "&euml;" et se terminant par une des m&ecirc;mes lettres : &ecirc;tre, entre, &eacute;t&eacute;, etc.</ul>  <h5> <a NAME="usagePatron"></a><font face="Arial,Helvetica">Usage des patrons de valeurs de propri&eacute;t&eacute;s</font></h5> Les valeurs de propri&eacute;t&eacute;s sont trait&eacute;es comme des cha&icirc;nes de caract&egrave;res, elles peuvent donc &ecirc;tre quelconques. Il est de la responsabilit&eacute; du codeur de fournir un corpus dont l'&eacute;tiquetage soit coh&eacute;rent et de donner l'interpr&eacute;tation exacte des valeurs de propri&eacute;t&eacute;s. Le moteur de recherche ne fait aucune supposition sur ces valeurs, ce qui permet souvent de r&eacute;aliser un <i>d&eacute;codage</i> des informations d'&eacute;tiquetage dans le filtre de recherche. <br>Par exemple, si le codage des cat&eacute;gories grammaticales associ&eacute;es &agrave; chaque occurrence commence syst&eacute;matiquement les valeurs de la propri&eacute;t&eacute; <b><tt>pos</tt></b> par <b><tt>v</tt></b>- pour tous les verbes, alors un filtre comme <b><tt>[pos="v.*"]</tt></b> recherchera toutes les occurrences de verbes dans le texte. Si, de plus, on a op&eacute;r&eacute; un codage d'attributs &agrave; l'int&eacute;rieur m&ecirc;me des valeurs de propri&eacute;t&eacute;s - par exemple : <b><tt>v13s</tt></b>=verbe 1er groupe 3i&egrave;me personne du singulier, <b><tt>v13p</tt></b>=verbe 1er groupe 3i&egrave;me personne du pluriel, etc - alors les expressions r&eacute;guli&egrave;res permettent de r&eacute;aliser des pseudo-recherches par attributs de valeurs de propri&eacute;t&eacute;s - par exemple, le filtre <b><tt>[pos="v.3."] </tt></b>recherchera tous les verbes conjugu&eacute;s &agrave; la troisi&egrave;me personne (ici le codage repose sur les valeurs possibles de certaines lettres &agrave; une position donn&eacute;e dans l'&eacute;tiquette). Bien s&ucirc;r ce type de recherche d&eacute;pend &eacute;troitement du travail d'encodage du corpus r&eacute;alis&eacute; en amont. <h5> <a NAME="etiqDefaut"></a><font face="Arial,Helvetica">&Eacute;tiquetage par d&eacute;faut</font></h5> Par d&eacute;faut, les corpus constitu&eacute;s pour <i>weblex</i> sont &eacute;tiquet&eacute;s avec une propri&eacute;t&eacute; <b><tt>pos</tt></b> codant des informations minimales sur les unit&eacute;s lexicales. Le segmenteur par d&eacute;faut distingue les mots ("<b><tt>mo</tt></b>") de la ponctuation (faible "<b><tt>po</tt></b>" ou forte "<b><tt>pf</tt></b>") et certains noms propres ("<b><tt>np</tt></b>" en fonction du codage Machinal). Diff&eacute;rents &eacute;tiqueteurs morpho-syntaxiques/lemmatiseurs ont d&eacute;j&agrave; &eacute;t&eacute; exp&eacute;riment&eacute;s mais leurs performances limitent pour l'instant leur usage &agrave; la phase d'encodage de corpus en LML en amont de <i>weblex</i>. Nous avons con&ccedil;u l'application CorTeCs (ref) pour pouvoir mettre au point l'&eacute;tiquetage d'un corpus avant son int&eacute;gration &agrave; <i>weblex</i>. <h4> <a NAME="expSuccOcc"></a><font face="Arial,Helvetica">Expression d'une succession d'occurrences</font></h4> L'expression d'une succession d'occurrences est l'interpr&eacute;tation maximale d'une expression CQP. Elle est obtenue par la juxtaposition de plusieurs expressions d'occurrences entre crochets (<b><tt>[]</tt></b>). Elle correspond donc &agrave; la recherche simultan&eacute;e de plusieurs occurrences ob&eacute;issant &agrave; certaines contraintes. Par exemple, l'expression <br><b><tt>[(lem="lutte" | lem="combat") &amp; p4="pluriel"]</tt></b> <b><tt>[pos!="verbe"]* [word="immigr.*" &amp; pos="verbe"] within p</tt></b> <br>&nbsp;exprime l'apparition d'une succession d'occurences du corpus compos&eacute;e d'une forme dont le lemme est soit 'lutte' soit 'combat' ayant un trait p4 &agrave; la valeur 'pluriel', suivie de 0 &agrave; n occurrences qui ne doivent pas &ecirc;tre un verbe, elles-m&ecirc;mes suivies d'un verbe dont la racine est 'immigr', le tout &agrave; l'int&eacute;rieur d'un paragraphe. <br>(on suppose dans cet exemple que la d&eacute;limitation des paragraphes a &eacute;t&eacute; encod&eacute;e au moment de l'int&eacute;gration du corpus dans <i>weblex</i>). <br>Cette g&eacute;n&eacute;ricit&eacute; d'expression de deuxi&egrave;me niveau (concernant les occurrences et non plus les valeurs de propri&eacute;t&eacute;s d'occurrences) s'exprime &agrave; l'aide d'op&eacute;rateurs &eacute;quivalents &agrave; ceux des <a href="regexp.html">expressions r&eacute;guli&egrave;res</a> non plus cette fois sur les caract&egrave;res des valeurs de propri&eacute;t&eacute;s mais sur les occurrences du corpus. On trouve ainsi les moyens d'exprimer : <ul> <li> la succession d'occurrences par juxtaposition des expressions d'occurrences <b><tt>[...] [...]</tt></b></li>  <br>- exemple : <b><tt>[word="[jJ]e|[nN]ous"] [pos="verbe"]</tt></b> <li> la disjonction d'occurrences par l'op&eacute;rateur "<b><tt>|</tt></b>"</li>  <br>- exemple : <b><tt>[word="environnement"] | [word="milieu"]</tt></b> <li> la r&eacute;p&eacute;tition variable d'occurrences par les op&eacute;rateurs "<b><tt>*</tt></b>" et "<b><tt>+</tt></b>"</li>  <br>- exemple : <b><tt>[pos != "verbe"]*</tt></b> <li> la r&eacute;p&eacute;tition g&eacute;n&eacute;rale d'occurrences par l'op&eacute;rateur d'intervalle de la forme "<b><tt>{n}</tt></b>", "<b><tt>{n,}</tt></b>" ou "<b><tt>{n,m}</tt></b>" :</li>  <ul> <li> <b><tt>[...]{n} </tt></b>pour <i>exactement n</i> occurrences de l'expression d'occurrence pr&eacute;c&eacute;dente ;</li>  <li> <b><tt>[...]{n,}</tt></b>pour <i>au moins n</i> occurrences de l'expression d'occurrence pr&eacute;c&eacute;dente (l'op&eacute;rateur "*" est &eacute;quivalent &agrave; l'op&eacute;rateur "{0,}" et "+" &agrave; "{1,}");</li>  <li> <b><tt>[...]{n,m}</tt></b>pour <i>entre n et m</i> occurrences de l'expression d'occurrence pr&eacute;c&eacute;dente (l'op&eacute;rateur "?" est &eacute;quivalent &agrave; l'op&eacute;rateur "{0,1}").</li>  <br>- exemple <b><tt>[lem="prendre"] [pos!="verbe"]{0,10} "&agrave;"? "&agrave;?.*contre-?pied" </tt></b>(on d&eacute;sire au maximum 10 occurrences qui ne soient pas des verbes entre une occurrence du lemme "prendre" et celles de formes composant "&agrave; contre-pied" selon diverses segmentations)</ul>  <li> l'&eacute;ventualit&eacute; d'occurrence par l'op&eacute;rateur "<b><tt>?</tt></b>"</li>  <li> le regroupement d'occurrences par les op&eacute;rateurs "<b><tt>(</tt></b>" ... "<b><tt>)</tt></b>"</li>  <br>- exemple : <b><tt>("ville" "de")? "Paris"</tt></b></ul>  <ul>Remarque 1 : certains op&eacute;rateurs portant sur les expressions d'occurrences ont un nom et une syntaxe analogues aux op&eacute;rateurs portant sur les valeurs de propri&eacute;t&eacute;s d'occurrences pour des raisons d'homog&eacute;n&eacute;it&eacute;. Par exemple, l'&eacute;criture de l'expression d'occurrence <b><tt>"[a-z]*"</tt></b> qui signifie "occurrence dont la forme est compos&eacute;e de 0 &agrave; n caract&egrave;res minuscules" sera analogue &agrave; l'&eacute;criture de l'expression d'une succession d'occurrences <b><tt>[pos="adj"]*</tt></b> qui signifie "de 0 &agrave; n occurrences d'adjectifs". Donner un nom identique &agrave; un m&ecirc;me ph&eacute;nom&egrave;ne dans deux univers distincts (celui des caract&egrave;res et celui des occurrences) est classique et aide l'apprentissage. Mais il faut parfois rester vigilant lors de la lecture d'une expression CQP complexe quant &agrave; l'application exacte (et &agrave; l'interpr&eacute;tation) de ses op&eacute;rateurs. Par exemple, une expression de la forme <b><tt>[pos="a.*"]* </tt></b>signifie l'apparition de 0 &agrave; n occurrences d'une forme dont le nom de la partie du discours commence par la lettre <b><tt>a</tt></b> comme "<b><tt>adjectif</tt></b>", "<b><tt>adverbe</tt></b>", ... Dans cet exemple la premi&egrave;re &eacute;toile de Kleene (sur les caract&egrave;res) s'applique au caract&egrave;re <b><tt>a</tt></b> et la deuxi&egrave;me (sur les expressions d'occurrences) s'applique &agrave; l'ensemble de l'expression d'occurrence <b><tt>[pos="a.*"]</tt></b>. Donc ces deux caract&egrave;res <b><tt>*</tt></b> bien qu'identiques &agrave; la lecture prennent une interpr&eacute;tation tr&egrave;s diff&eacute;rente selon leur contexte d'apparition. <p>Remarque 2 : l'espace des occurrences &eacute;tant construit sur celui des caract&egrave;res composant la valeur de leurs propri&eacute;t&eacute;s (comme la propri&eacute;t&eacute; <b><tt>word</tt></b> pour la forme de l'occurrence par exemple), la g&eacute;n&eacute;ricit&eacute; d'une expression CQP peut parfois s'exprimer de mani&egrave;re &eacute;quivalente soit au niveau des occurrences soit au niveau des valeurs de propri&eacute;t&eacute;s. Par exemple, l'expression <b><tt>[pos="adjectif"] | [pos="adverbe"] </tt></b>exprimera la m&ecirc;me recherche que l'expression <b><tt>[pos="adjectif|adverbe"]</tt></b>. Dans le premier cas l'op&eacute;rateur de disjonction "<b><tt>|</tt></b>" porte sur les possibilit&eacute;s d'occurrence voulues alors que dans le deuxi&egrave;me elle porte sur les valeurs possibles de sa propri&eacute;t&eacute; <b><tt>pos</tt></b>. Ces deux expressions sont formellement identiques et l'usage d'un niveau d'expression plut&ocirc;t q'un autre d&eacute;pend des pr&eacute;f&eacute;rences de l'utilisateur. D'un point de vue pratique il faut cependant savoir que les op&eacute;rateurs portant sur le niveau des expressions d'occurrences sont analys&eacute;s plus efficacement (c'est-&agrave;-dire plus rapidement) que les op&eacute;rateurs portant sur le niveau des valeurs de propri&eacute;t&eacute;s de ces occurrences. Ce qui peut influencer les temps de r&eacute;ponse dans le cas de corpus de dimensions importantes. <br>Veuillez enfin noter que dans le cas des expressions d'occurrences, le caract&egrave;re <i>espace</i> situ&eacute; entre les op&eacute;rateurs n'est pas interpr&eacute;t&eacute; et sert seulement &agrave; am&eacute;liorer la lisibilit&eacute; de l'expression. Ainsi dans l'exemple pr&eacute;c&eacute;dent <b><tt>...if"] | [pos...</tt></b>, l'espace situ&eacute; autour de la disjonction "<b><tt>|</tt></b>" aurait pu &ecirc;tre r&eacute;p&eacute;t&eacute; sans modifier l'interpr&eacute;tation de l'expression. Par contre dans le cas des expressions portant sur les valeurs de propri&eacute;t&eacute;s l'espace est un caract&egrave;re interpr&eacute;t&eacute; comme les autres. Donc dans l'exemple pr&eacute;c&eacute;dent une expression de la forme <b><tt>[pos="adjectif | adverbe"]</tt></b> aurait signifi&eacute; une recherche d'occurrence de valeur de <b><tt>pos</tt></b> &eacute;gale &agrave; <b><tt>"adjectif "</tt></b> ou <br><b><tt>" adverbe"</tt></b> (notez les insertions malencontreuses du caract&egrave;re espace) ce qui est diff&eacute;rent des valeurs <b><tt>"adjectif"</tt></b> ou <b><tt>"adverbe"</tt></b> .</ul>  <h5> <a NAME="expConOcc"></a><font face="Arial,Helvetica"><font size=-1>Expression de contraintes entre les occurrences</font></font></h5> Pour exprimer des contraintes <i>entre</i> les occurrences en plus de celles propres aux propri&eacute;t&eacute;s d'occurrences seules, le langage CQP offre le moyen d'&eacute;tiqueter une expression d'occurrence particuli&egrave;re et de faire r&eacute;f&eacute;rence &agrave; la valeur d'une de ses propri&eacute;t&eacute;s dans l'expression d'une autre occurrence. <br>Par exemple, pour accorder le nombre d'un d&eacute;terminant &agrave; celui d'un verbe dans une expression CQP on pourrait s'exprimer par <b><tt>a:[pos="d&eacute;terminant"] []* [pos=verbe &amp; p4=a.p4] within s</tt></b> en supposant que la propri&eacute;t&eacute; <b><tt>p4</tt></b> encode le trait nombre des occurrences. Dans cet exemple on a nomm&eacute; (&eacute;tiquet&eacute;) l'occurrence d'un d&eacute;terminant <b><tt>a</tt></b> en pr&eacute;fixant l'expression de son occurrence par <b><tt>a:</tt></b> . Puis on &agrave; fait r&eacute;f&eacute;rence &agrave; la valeur de sa propri&eacute;t&eacute; <b><tt>p4</tt></b> en "ouvrant" son &eacute;tiquette &agrave; la propri&eacute;t&eacute; <b><tt>p4</tt></b> par l'expression <b><tt>a.p4</tt></b>. <br>Propri&eacute;t&eacute;s des r&eacute;f&eacute;rences : <ul> <li> le nom d'une expression d'occurrence est un identificateur quelconque &agrave; sp&eacute;cificier devant un caract&egrave;re "<b><tt>:</tt></b>" pr&eacute;fixant l'expression d'occurrence ;</li>  <li> on ne peut faire r&eacute;f&eacute;rence &agrave; une valeur de propri&eacute;t&eacute; d'occurrence que si cette derni&egrave;re &agrave; &eacute;t&eacute; nomm&eacute;e et <i>pr&eacute;c&egrave;de</i> l'occurrence &agrave; contraindre ;</li>  <li> dans le cas d'expressions g&eacute;n&eacute;riques, l'&eacute;tiquette d'une occurrence non rep&eacute;r&eacute;e n'est pas d&eacute;r&eacute;f&eacute;ren&ccedil;able (toute expression y faisant r&eacute;f&eacute;rence sera fausse) ;</li>  <li> dans le cas de r&eacute;p&eacute;titions (<b><tt>*</tt></b>, <b><tt>+</tt></b>, ...), le nom sera attribu&eacute; &agrave; la <i>derni&egrave;re</i> occurrence de la r&eacute;p&eacute;tition.</li> </ul>  <ul><b>Remarque : ce m&eacute;canisme est le seul moyen de relier entre elles les diff&eacute;rentes contraintes portant sur une occurrence donn&eacute;e avec celles d'une autre occurrence dans une expression CQP. Il offre en quelque sorte un <i>TROISIEME NIVEAU</i> d'expression de contraintes en reliant entre elles celles des deux niveaux pr&eacute;c&eacute;dents.</b></ul>  <h5> <a NAME="expResRec"></a><font face="Arial,Helvetica"><font size=-1>Expansion du r&eacute;sultat des recherches</font></font></h5> Plut&ocirc;t que de se limiter &agrave; ne rendre compte que des occurrences correspondant exactement &agrave; une expression CQP donn&eacute;e, le r&eacute;sultat de recherches peuvent &ecirc;tre &eacute;tendus &agrave; l'environnement entourant la requ&ecirc;te initiale. Le r&eacute;sultat peut &ecirc;tre soit &eacute;tendu &agrave; n occurrences aux alentours des occurrences trouv&eacute;es (par exemple 10 occurrences avant et 10 occurrences apr&egrave;s en plus des occurrences trouv&eacute;es) soit &eacute;tendu &agrave; l'int&eacute;gralit&eacute; des occurrences situ&eacute;es &agrave; l'int&eacute;rieur d'une macro-structure particuli&egrave;re contenant le r&eacute;sultat (par exemple l'ensemble des occurrences composant les phrases o&ugrave; les occurrences ont &eacute;t&eacute; trouv&eacute;es). <br>Par exemple, l'expression <b><tt>[word="immigr.*" &amp; pos="verbe"] expand to 30</tt></b> &eacute;tendra le r&eacute;sultat de l'expression aux 30 occurrences pr&eacute;c&eacute;dant et suivant les occurrences sp&eacute;cifi&eacute;es par l'expression. L'expression <b><tt>[word="immigr.*" &amp; pos="verbe"] expand right to 10</tt></b>&nbsp; &eacute;tendra le r&eacute;sultat aux 10 occurrences suivant les occurrences sp&eacute;cifi&eacute;es par l'expression.&nbsp; L'expression <b><tt>[word="immigr.*" &amp; pos="verbe"] expand to s</tt></b>&nbsp; &eacute;tendra le r&eacute;sultat &agrave; l'ensemble des occurrences composant les phrases contenant l'expression. <ul>Remarque : cet op&eacute;rateur particulier permet d'extraire commod&eacute;ment des <i>sous-corpus</i> bas&eacute;s sur l'occurrence d'expressions CQP.</ul>  <h4> <a NAME="cqpdoc"></a><font face="Arial,Helvetica">Manuel de r&eacute;f&eacute;rence du langage CQP</font></h4> Une <a href="refregexpcqp.html">pr&eacute;sentation concise de l'ensemble des traits du langage CQP</a>. <br>&nbsp; <p><b><font face="Arial,Helvetica"><font size=+2>13.&nbsp;<a NAME="index-cqp"></a>Index d'une expression CQP</font></font></b> <p>Ind&eacute;pendament de la synth&egrave;se tri&eacute;e du contexte d'apparition d'une expression CQP particuli&egrave;re (cf. <a href="#conc">concordances d'une expression CQP</a>), on s'int&eacute;resse souvent au simple recensement des diff&eacute;rentes valeurs d'occurrences que peut prendre cette expression &agrave; travers l'ensemble du corpus (c'est &agrave; dire aux diff&eacute;rents pivots de la concordance correspondante). <br>Dans <i>weblex</i>, la forme que peut prendre l'apparition d'une occurrence d'expression CQP dans le corpus peut &ecirc;tre compos&eacute;e &agrave; l'aide de plusieurs informations. La repr&eacute;sentation cette apparition peut &ecirc;tre compos&eacute;e au choix de (voir choix de la repr&eacute;sentation des occurrences de l'expression dans la documentation du formulaire) : <ul> <li> la forme des occurrences correspondantes ;</li>  <li> la cat&eacute;gorie morpho-syntaxique de chaque occurrence ;</li>  <li> le lemme de chaque occurrence ;</li>  <li> et, &agrave; terme, une combinaison de n'importe quelles propri&eacute;t&eacute;s de l'occurrence.</li> </ul> En cas de composition de propri&eacute;t&eacute;s, leurs valeurs sont s&eacute;par&eacute;es par le caract&egrave;re " / ". <br>Par exemple, un index d'expression CQP repr&eacute;sent&eacute; par leurs formes seules rend compte des syntagmes de surface recherch&eacute;s. Par contre, une composition de leur cat&eacute;gorie morpho-syntaxique rendra plut&ocirc;t compte des successions de cat&eacute;gories &agrave; l'origine de ces syntagmes. <br>L'index d'une expression CQP est tri&eacute; par fr&eacute;quence d&eacute;croissante de la repr&eacute;sentation de chaque occurrence, puis alphab&eacute;tiquement par la repr&eacute;sentation choisie en cas d'&eacute;galit&eacute; de la fr&eacute;quence. <p>Exemple :&nbsp; une ventilation des indexes de deux expressions CQP, <i><tt>[Nn]ature.*</tt></i>et<i><tt>[Ee]nvironnement.*</tt></i>, &agrave; travers les diff&eacute;rentes revues &eacute;cologiques d'un corpus contrastant diff&eacute;rentes publications (ref). Comme le corpus <tt>ecologie-div-title</tt> sur lequel s'applique ce calcul d'index d'expressions CQP est partitionn&eacute;, il s'agit de deux it&eacute;rations successives, sur l'ensemble des revues, du calcul de l'index des occurrences de formes de chaque expression. Pour obtenir un point de vue plus synth&eacute;tique de la r&eacute;partition de ces deux expressions &agrave; travers les revues correspondantes vous pouvez consulter l'<a href="contraste.html#specif-cqp-nature-environ">exemple de calcul de sp&eacute;cificit&eacute; de ces deux expressions CQP</a> dans les m&ecirc;mes conditions exp&eacute;rimentales. <h5> <a NAME="index-cqp-nature"></a><font face="Arial,Helvetica">Index it&eacute;r&eacute; des formes de l'expression<i> [Nn]ature.*</i></font></h5>  <h3> Index des occurrences de <i>[Nn]ature.*</i> dans le corpus ecologie/div title=AN</h3>  <pre>&nbsp; 271 nature &nbsp; 177 naturel &nbsp; 113 naturels &nbsp;&nbsp; 91 naturelles &nbsp;&nbsp; 50 Nature &nbsp;&nbsp; 18 naturelle &nbsp;&nbsp;&nbsp; 7 naturellement &nbsp;&nbsp;&nbsp; 5 Naturels &nbsp;&nbsp;&nbsp; 3 Naturel &nbsp;&nbsp;&nbsp; 3 natures &nbsp;&nbsp;&nbsp; 1 Naturelle &nbsp;&nbsp;&nbsp; 1 nature-espace  &nbsp; 740 au Total</pre>  <h3> Index des occurrences de <i>[Nn]ature.*</i> dans le corpus ecologie/div title=CN</h3>  <pre>&nbsp; 311 nature &nbsp; 111 Nature &nbsp;&nbsp; 74 naturel &nbsp;&nbsp; 54 naturels &nbsp;&nbsp; 42 naturelles &nbsp;&nbsp; 14 naturelle &nbsp;&nbsp;&nbsp; 5 naturellement &nbsp;&nbsp;&nbsp; 2 Naturel &nbsp;&nbsp;&nbsp; 1 Nature-Environnement &nbsp;&nbsp;&nbsp; 1 Naturelle &nbsp;&nbsp;&nbsp; 1 Naturellement &nbsp;&nbsp;&nbsp; 1 Naturelles &nbsp;&nbsp;&nbsp; 1 Naturels  &nbsp; 618 au Total</pre>  <h3> Index des occurrences de <i>[Nn]ature.*</i> dans le corpus ecologie/div title=VC</h3>  <pre>&nbsp;&nbsp; 58 nature &nbsp;&nbsp; 21 naturels &nbsp;&nbsp; 17 naturelles &nbsp;&nbsp; 13 naturel &nbsp;&nbsp;&nbsp; 7 Nature &nbsp;&nbsp;&nbsp; 6 naturelle &nbsp;&nbsp;&nbsp; 2 naturellement  &nbsp; 124 au Total</pre>  <h3> Index des occurrences de <i>[Nn]ature.*</i> dans le corpus ecologie/div title=EP</h3>  <pre>&nbsp; 287 nature &nbsp;&nbsp; 58 naturelles &nbsp;&nbsp; 46 naturel &nbsp;&nbsp; 26 naturels &nbsp;&nbsp;&nbsp; 8 naturelle &nbsp;&nbsp;&nbsp; 7 Nature &nbsp;&nbsp;&nbsp; 2 Naturellement &nbsp;&nbsp;&nbsp; 2 naturellement &nbsp;&nbsp;&nbsp; 1 Naturelle  &nbsp;&nbsp;&nbsp; 1 Naturesschutzring &nbsp;&nbsp;&nbsp; 1 nature-jardin  &nbsp; 439 au Total</pre> &nbsp; <h5>  <hr ALIGN=LEFT SIZE=1 NOSHADE WIDTH="10%"><font face="Arial,Helvetica">Index it&eacute;r&eacute; des formes de l'expression<i> </i></font><i><tt>[Ee]nvironnement.*</tt></i></h5>  <h3> Index des occurrences de <i>[Ee]nvironnement.*</i> dans le corpus ecologie/div title=AN</h3>  <pre>&nbsp;1259 environnement &nbsp; 214 Environnement &nbsp;&nbsp; 48 environnementale &nbsp;&nbsp; 18 environnementales &nbsp;&nbsp; 11 environnemental &nbsp;&nbsp; 11 environnementaux &nbsp;&nbsp;&nbsp; 7 environnements &nbsp;&nbsp;&nbsp; 4 environnementaliste &nbsp;&nbsp;&nbsp; 3 environnementalistes &nbsp;&nbsp;&nbsp; 2 environnementalisation &nbsp;&nbsp;&nbsp; 1 Environnement-D&eacute;veloppement &nbsp;&nbsp;&nbsp; 1 environnement-d&eacute;veloppement &nbsp;&nbsp;&nbsp; 1 environnement-sant&eacute; &nbsp;&nbsp;&nbsp; 1 environnement/d&eacute;veloppement  &nbsp;1581 au Total</pre>  <h3> Index des occurrences de <i>[Ee]nvironnement.*</i> dans le corpus ecologie/div title=CN</h3>  <pre>&nbsp; 497 environnement &nbsp;&nbsp; 86 Environnement &nbsp;&nbsp;&nbsp; 6 environnementalistes &nbsp;&nbsp;&nbsp; 5 environnementaux &nbsp;&nbsp;&nbsp; 3 environnementale &nbsp;&nbsp;&nbsp; 3 environnementaliste &nbsp;&nbsp;&nbsp; 2 environnemental &nbsp;&nbsp;&nbsp; 2 environnementalisme &nbsp;&nbsp;&nbsp; 1 Environnementaliste &nbsp;&nbsp;&nbsp; 1 environnementales  &nbsp; 606 au Total</pre>  <h3> Index des occurrences de <i>[Ee]nvironnement.*</i> dans le corpus ecologie/div title=VC</h3>  <pre>&nbsp; 337 environnement &nbsp;&nbsp; 32 Environnement &nbsp;&nbsp; 12 environnementale &nbsp;&nbsp; 10 environnementales &nbsp;&nbsp;&nbsp; 3 environnementalistes &nbsp;&nbsp;&nbsp; 3 environnementaux &nbsp;&nbsp;&nbsp; 2 environnemental &nbsp;&nbsp;&nbsp; 2 environnementalisme &nbsp;&nbsp;&nbsp; 1 environnementaliste  &nbsp; 402 au Total</pre>  <h3> Index des occurrences de <i>[Ee]nvironnement.*</i> dans le corpus ecologie/div title=EP</h3>  <pre>&nbsp; 621 environnement &nbsp;&nbsp; 61 environnementale &nbsp;&nbsp; 47 environnementales &nbsp;&nbsp; 38 environnementaux &nbsp;&nbsp; 25 environnementalistes &nbsp;&nbsp; 23 environnemental &nbsp;&nbsp; 15 Environnement &nbsp;&nbsp; 11 environnementalisme &nbsp;&nbsp;&nbsp; 8 environnementaliste &nbsp;&nbsp;&nbsp; 3 environnements &nbsp;&nbsp;&nbsp; 2 environnement-d&eacute;veloppement &nbsp;&nbsp;&nbsp; 1 environnement-entreprise &nbsp;&nbsp;&nbsp; 1 environnementalism  &nbsp; 856 au Total</pre> <b><font face="Arial,Helvetica"><font size=+2>14.&nbsp;<a NAME="rep-cqp"></a>R&eacute;partition d'une expression CQP</font></font></b> <p>Apr&egrave;s s'&ecirc;tre int&eacute;ress&eacute; globalement &agrave; la r&eacute;partition, au fil du corpus, de l'ensemble des formes du vocabulaire (voir la section <b><font face="Arial,Helvetica"><font size=-1><a href="listes.html#repartition">R&eacute;partition ou &laquo;Rafales&raquo;</a></font></font></b>) et les avoir class&eacute;es les unes par rapport aux autres en cons&eacute;quence, on pourra s'int&eacute;resser localement &agrave; la r&eacute;partition d'une ou de plusieurs formes particuli&egrave;res. Dans <i>weblex</i> nous g&eacute;n&eacute;ralisons ce service au calcul de la r&eacute;partition de plusieurs expressions CQP quelconques (rappellons qu'une forme simple est une expression CQP valide dans <i>weblex</i>). <br>Afin de pr&eacute;senter les r&eacute;sultats de la mani&egrave;re la plus pr&eacute;cise possible nous affichons &agrave; la fois : <ul> <li> l'indice de r&eacute;partition de l'expression ;</li>  <li> l'histogramme cumul&eacute; des apparitions, qui inclut le graphe de r&eacute;partition sur son axe des abscisses ;</li>  <li> l'histogramme en bo&icirc;tes des apparitions, moins pr&eacute;cis que le pr&eacute;c&eacute;dent mais plus accessible en premi&egrave;re lecture ;</li> </ul> Actuellement, dans <i>weblex</i>, le nombre d'expressions &agrave; rechercher simultan&eacute;ment est limit&eacute; &agrave; 2 : les sources A et B du formulaire. <p>Par exemple, voici la r&eacute;partition des formes "Lancelot" et "Galaad" au fil d'un corpus d'ancien fran&ccedil;ais (XIII<sup>i&egrave;me</sup> si&egrave;cle) racontant l'histoire de la qu&ecirc;te du Graal (ref cmn BFM) : <br>&nbsp; <center> <h4> Graphe de r&eacute;partition des occurrences des expressions <i>Lancelot </i>et <i>Galaad</i> dans le corpus <tt>qgraalc</tt></h4></center>  <center><img SRC="rep-cqp-cumul.gif" VSPACE=10 height=475 width=595> <br><img SRC="rep-cqp-histo.gif" VSPACE=10 height=475 width=587></center>  <p><b><font face="Arial,Helvetica"><font size=+2>15.&nbsp;<a NAME="lex"></a>Lexicogramme</font></font></b> <p>La notion de lexicogramme a &eacute;t&eacute; introduite par Maurice Tournier en ? (ref.). Un lexicogramme se compose d'une forme p&ocirc;le et de deux colonnes correspondant aux formes cooccurrentes avec le p&ocirc;le : celles apparaissant en g&eacute;n&eacute;ral &agrave; sa gauche dans le corpus et celles apparaissant &agrave; sa droite. Dans ces colonnes les formes (et par l&agrave;-m&ecirc;me le couple qu'elle forme avec le p&ocirc;le) sont class&eacute;es, en g&eacute;n&eacute;ral par leur probabilit&eacute; de cooccurrence croissante (donc les couples les plus &eacute;tonnants en probabilit&eacute; d'abord), puis par leur cofr&eacute;quence, le nombre moyen d'occurrences qui les s&eacute;parent, etc. Dans <i>weblex</i>, les classements sont param&eacute;trables pour pouvoir les adapter &agrave; une probl&eacute;matique donn&eacute;e. La probabilit&eacute; de cooccurrence utilis&eacute;e est identique &agrave; celle du calcul pr&eacute;sent&eacute; &agrave; la section <b><font face="Arial,Helvetica"><font size=-1><a href="listes.html#cooc">Cooccurrents</a></font></font></b> o&ugrave; le calcul compare <i>tous</i> les couples de formes potentiels du corpus par rapport &agrave; cette mesure. On peut interpr&eacute;ter le lexicogramme comme une synth&egrave;se de couples cooccurrents de la liste totale focalis&eacute;e autour d'une forme particuli&egrave;re appel&eacute;e p&ocirc;le. Une autre interpr&eacute;tation possible est celle de la synth&egrave;se du vocabulaire des contextes de concordances du p&ocirc;le o&ugrave; l'on ne repr&eacute;sente que les formes apparaissant le plus sp&eacute;cifiquement avec ce p&ocirc;le. <br>Attention : dans cette version de <i>weblex</i>, tous les calculs mettant en oeuvre la mesure statistique de cooccurrence (cooccurrents, lexicogrammes, lexicogrammes r&eacute;cursifs) s'appliquent <b><i>exclusivement aux formes</i></b> du corpus. Les conditions dans lesquelles on pourrait adapter la mesure de cooccurrence &agrave; la rencontre d'expressions CQP sont &agrave; l'&eacute;tude. <br>Afin de parcourir directement l'espace de cooccurence induit par la mesure statistique, ou de mani&egrave;re analogue pour encha&icirc;ner les synth&egrave;ses de concordances de contexte en contexte, <i>weblex</i> associe &agrave; chaque forme du lexicogramme un lien hypertextuel vers le calcul du lexicogramme de la forme cooccurrente elle-m&ecirc;me. Pour un corpus donn&eacute;, en parcourant l'ensemble des liens disponibles on explore l'espace de cooccurrence induit par la mesure et les seuils associ&eacute;s. C'est ce type de parcours qui a motiv&eacute; notre mise en oeuvre hypertextuelle de <i>weblex</i>. <br>Par ailleurs, de mani&egrave;re analogue &agrave; l'acc&egrave;s syst&eacute;matique dans l'&eacute;dition en ligne &agrave; l'apparition d'une occurrence correspondant &agrave; une ligne de concordances &agrave; travers un lien hypertextuel symbolis&eacute; par la r&eacute;f&eacute;rence de la ligne, dans les colonnes d'un lexicogramme chaque cofr&eacute;quence de couple forme un lien hypertextuel vers le calcul de la concordance du couple (&agrave; l'aide d'une expression CQP). De m&ecirc;me, &agrave; chaque fr&eacute;quence totale de forme cooccurrente est associ&eacute; un lien vers sa concordance dans l'ensemble du corpus. Les lexicogrammes forment donc une couche suppl&eacute;mentaire &agrave; l'hypertexte construit au dessus de l'&eacute;dition en ligne avec les concordances. --- <br>Un lexicogramme est form&eacute; : <ul> <li> d'une ligne annon&ccedil;ant les diff&eacute;rents seuils utilis&eacute;s pour &eacute;laguer les r&eacute;sultats. Sans cette ligne, il est souvent difficile d'interpr&eacute;ter le lexicogramme. Elle est compos&eacute;e :</li>  <ul> <li> du seuil de fr&eacute;quence minimale de la forme analys&eacute;e <b>f</b> ;</li>  <li> du seuil de cofr&eacute;quence minimum <b>cf </b>;</li>  <li> du seuil de probabilit&eacute; de cooccurrence maximum fix&eacute; <b>p</b> ;</li>  <li> de la distance moyenne minimum <b>d<sub>m</sub></b>.</li>  <br>La description pr&eacute;cise de ces diff&eacute;rents param&egrave;tres se trouve &agrave; la section <font face="Arial,Helvetica"><font size=-1><a href="formulaire.html#elagage-quantitatif">Seuils d'&eacute;lagage des r&eacute;sultats</a></font></font> de la documentation du formulaire. <br>En rendant plus l&acirc;ches ces seuils, le lexicogramme peut virtuellement afficher tous les couples potentiels associ&eacute;s au p&ocirc;le dans un corpus donn&eacute;. Dans ce cas limite, le calcul de concordances tri&eacute;es avec un contexte restreint nous semble, en g&eacute;n&eacute;ral, plus appropri&eacute;.</ul>  <li> d'un p&ocirc;le, centr&eacute;, dont on indique la fr&eacute;quence totale entre parenth&egrave;ses ;</li>  <li> de deux colonnes des formes cooccurrentes : <b>cooccurrents gauches</b> situ&eacute;es &agrave; gauche du p&ocirc;le en probabilit&eacute; dans le corpus, et <b>cooccurrents droits</b> situ&eacute;s &agrave; sa droite.</li>  <br>chaque colonne est compos&eacute;e : <ul> <li> de la forme cooccurrente (lien hypertexte vers le lexicogramme de la forme) ;</li>  <li> de sa fr&eacute;quence <b>f</b> (lien hypertexte vers la concordance de la forme) ;</li>  <li> de la cofr&eacute;quence de cette forme avec le pivot <b>cf</b> (lien vers la concordance du couple) ;</li>  <li> de la probabilit&eacute; <b>p</b> de cooccurrence de la forme avec le pivot. Rappellons que le calcul utilis&eacute; est celui d'une estimation de la probabilit&eacute; que ces deux formes apparaissent le nombre de fois qu'on constate effectivement qu'elles apparaissent dans le corpus <i>et plus</i> &agrave; concurrence de la fr&eacute;quence des deux formes la plus faible ;</li>  <li> de leur distance moyenne en nombre d'occurrences <b>d<sub>m</sub></b>.</li> </ul> </ul> Remarques : <ul> <li> pour une mise en oeuvre "contrastive" du parcours de lexicogrammes on peut consulter l'exemple de la section <font face="Arial,Helvetica"><font size=-1><a href="outils.html#panorama-contraste">Les outils contrastifs</a></font></font> ;</li>  <li> dans cette impl&eacute;mentation de <i>weblex</i>, les lexicogrammes portent <b><i>uniquement</i></b> sur les formes du corpus.</li> </ul> Exemple de lexicogramme dans le corpus On, celui de la forme ? : <h3> Lexicogramme du p&ocirc;le "soci&eacute;t&eacute;" dans le corpus cfdt73 &sup1;</h3> Seuils : <b>f</b> 3, <b>cf</b> 3, <b>p</b> 5.0E-2, <b>d<sub><font size=-1>m</font></sub></b> 1000.0 <table> <tr VALIGN=CENTER> <td ALIGN=CENTER COLSPAN="11">soci&eacute;t&eacute;</td> </tr>  <tr VALIGN=CENTER> <td ALIGN=CENTER COLSPAN="11">(26)</td> </tr>  <tr VALIGN=CENTER> <th ALIGN=CENTER COLSPAN="5">cooccurrents gauches</th>  <th></th>  <th ALIGN=CENTER COLSPAN="5">cooccurrents droits</th> </tr>  <tr VALIGN=CENTER> <th></th>  <th ALIGN=RIGHT>f</th>  <th ALIGN=RIGHT>cf</th>  <th ALIGN=CENTER>p</th>  <th ALIGN=CENTER>d<sub><font size=-1>m</font></sub></th>  <th></th>  <th></th>  <th ALIGN=RIGHT>f</th>  <th ALIGN=RIGHT>cf</th>  <th ALIGN=CENTER>p</th>  <th ALIGN=CENTER>d<sub><font size=-1>m</font></sub></th> </tr>  <tr VALIGN=CENTER> <td ALIGN=LEFT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=transformation&script=Lexicogramme">transformation</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=transformation&script=Concordances">14</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=%22transformation%22+%5B%5D*+%22soci%E9t%E9%22+within+s&script=Concordances">5</a></td>  <td ALIGN=RIGHT>4.882e-04</td>  <td ALIGN=RIGHT>3.0</td>  <td></td>  <td ALIGN=LEFT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=socialiste&script=Lexicogramme">socialiste</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=socialiste&script=Concordances">16</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=%22soci%E9t%E9%22+%5B%5D*+%22socialiste%22+within+s&script=Concordances">5</a></td>  <td ALIGN=RIGHT>9.673e-04</td>  <td ALIGN=RIGHT>3.8</td> </tr>  <tr VALIGN=CENTER> <td ALIGN=LEFT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=permettre&script=Lexicogramme">permettre</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=permettre&script=Concordances">11</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=%22permettre%22+%5B%5D*+%22soci%E9t%E9%22+within+s&script=Concordances">3</a></td>  <td ALIGN=RIGHT>1.859e-02</td>  <td ALIGN=RIGHT>21.7</td>  <td></td>  <td ALIGN=LEFT></td>  <td ALIGN=RIGHT></td>  <td ALIGN=RIGHT></td>  <td ALIGN=RIGHT></td>  <td ALIGN=RIGHT></td> </tr>  <tr VALIGN=CENTER> <td ALIGN=LEFT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=classe&script=Lexicogramme">classe</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=classe&script=Concordances">40</a></td>  <td ALIGN=RIGHT><a href="http://lexico.ens-lsh.fr/cgi-bin/nph-scriptw.sh?freqmin=0&precomp=on&rgexp=&tregexp=Suppression&cle1=Probabilit%E9&cle2=Co-fr%E9quence&cle3=Distance&cle4=Forme+de+gauche&ss=D%E9croissantes&layout=Hi%E9rarchie+gauche+droite&gel=1.0&etiq=Aucune&aprec=3&nshp=Ellipse&sortie=PostScript&impression=Image&gsynth=on&nbest=5&Gnodes=3&Xnodes=une+synth%E8se&concleft=60&concright=60&coocwrap=Une&hyperindex=on&coocdisp=Tableau&trunc=10000&file=cfdt73&probamax=5.0E-2&occurmin=3&foptim=3&distmax=1000.0&gdepth=1000&pseek=on&maxn=50&pole=%22classe%22+%5B%5D*+%22soci%E9t%E9%22+within+s&script=Concordances">5</a></td>  <td ALIGN=RIGHT>4.827e-02</td>  <td ALIGN=RIGHT>14.4</td>  <td></td>  <td ALIGN=LEFT></td>  <td ALIGN=RIGHT></td>  <td ALIGN=RIGHT></td>  <td ALIGN=RIGHT></td>  <td ALIGN=RIGHT></td> </tr> </table>  <p><b><font face="Arial,Helvetica"><font size=+2>16.&nbsp;<a NAME="lex-rec"></a>Lexicogramme r&eacute;cursif</font></font></b> <p>Pour un corpus donn&eacute;, l'ensemble des lexicogrammes accessibles &agrave; partir d'une forme particuli&egrave;re, et des liens successifs &agrave; partir d'elle, forme une repr&eacute;sentation de l'espace de cooccurrence du vocabulaire induit par notre mesure statistique de cooccurrence pour une certain nombre de seuils fix&eacute;s. L'objet du calcul du lexicogramme r&eacute;cursif est d'afficher cette repr&eacute;sentation sous la forme d'un graphe. Dans ce graphe chaque sommet (ou noeud) repr&eacute;sente une forme et chaque arc (ou lien orient&eacute;) repr&eacute;sente une relation de cooccurrence attest&eacute;e par la mesure et les seuils, orient&eacute;e de la forme situ&eacute; &agrave; gauche (en probabilit&eacute;) vers la forme situ&eacute;e &agrave; sa droite dans le corpus. Les premiers graphes de lexicogrammes r&eacute;cursifs ont &eacute;t&eacute; dessin&eacute;s manuellement par Maurice Tournier (ref.). Nous leurs avons simplement donn&eacute; un nom <sup><a href="#lexicographe">3</a></sup>&nbsp; et nous avons affin&eacute; l'algorithme initial en le sym&eacute;trisant de sorte &agrave; obtenir un parcours <i>identique</i> quelle que soit la forme d'origine du graphe (la source) en explorant syst&eacute;matiquement le vocabulaire jusqu'&agrave; <i>saturation</i> compl&egrave;te. <br>Dans les graphes de <i>weblex</i>, que l'on construit donc &agrave; l'aide d'un simple clic, chaque arc peut &ecirc;tre &eacute;tiquet&eacute; au choix par : <ul> <li> la probabilit&eacute; de cooccurrence correspondante ;</li>  <li> la partie enti&egrave;re du logarithme en base 10 de la probabilit&eacute; (en gros, son ordre de grandeur) ;</li>  <li> la cofr&eacute;quence (qui est sens&eacute;e &ecirc;tre moins pr&eacute;cise que la probabilit&eacute; mais est tout aussi utile) ;</li>  <li> la distance moyenne entre les sommets (qui est tout &agrave; fait ind&eacute;pendante de la probabilit&eacute; et de la cofr&eacute;quence).</li> </ul> Chaque sommet forme un lien hypertexte vers le calcul du lexicogramme de la forme correspondant au sommet (c'est une option). Le lexicogramme r&eacute;cursif forme donc une nouvelle couche hypertextuelle au dessus des lexicogrammes, eux-m&ecirc;mes situ&eacute;s au-dessus des concordances, elles-m&ecirc;mes situ&eacute;es au dessus de l'&eacute;dition en ligne du corpus. En 3 clics vous pouvez donc lire un passage du corpus en relation avec un sommet du lexicogramme r&eacute;cursif. <br>Une interpr&eacute;tation possible du graphe du lexicogramme r&eacute;cursif&nbsp; est la repr&eacute;sentation d'une synth&egrave;se de l'ensemble des lexicogrammes formant une composante connexe de l'espace de cooccurrence du vocabulaire du corpus. Le lexicogramme formant, pour sa part une synth&egrave;se des concordances ou cooccurrences. Concordances qui forment, pour leur part, un recensement class&eacute; et r&eacute;f&eacute;renc&eacute; d'occurrences en contexte. La r&eacute;f&eacute;rence d'une ligne de concordance donnant acc&egrave;s directement &agrave; l'occurrence correspondante dans l'&eacute;dition en ligne du corpus. <br>En pratique, pour ce calcul, la principale contrainte rencontr&eacute;e est celle de la repr&eacute;sentabilit&eacute; du graphe sur un &eacute;cran ou une imprimante. En effet, le parcours direct du r&eacute;seau des lexicogrammes peut former un graphe beaucoup trop dense sans pr&eacute;caution. Nous proposons donc au moins quatre moyens d'intervenir sur les dimensions du graphe r&eacute;sultant dans <i>weblex</i> : <ul> <li> Soit vous augmentez les seuils de sorte &agrave; r&eacute;duire le nombre de formes pr&eacute;sentent dans le graphe. Par exemple, une option du formulaire (active par d&eacute;faut) vous permet de faire rechercher automatiquement <sup><a href="#note-lxg-rec-3">3</a></sup>&nbsp; le meilleur seuil en probabilit&eacute; <b>p</b> au moment du calcul pour obtenir un graphe compos&eacute; d'un nombre maximum de sommets (param&eacute;trable).</li>  <li> Soit vous limitez le parcours r&eacute;cursif en l'emp&ecirc;chant de s'&eacute;loigner de plus de <b>pl</b> sommets de la forme initiale (appell&eacute;e la source). C'est l'objet du param&egrave;tre palier <b>pl</b> de la rubrique des <font face="Arial,Helvetica"><font size=-1><a href="formulaire.html#elagage-quantitatif">Seuils d'&eacute;lagage des r&eacute;sultats</a></font></font> du formulaire. Dans ce cas, le graphe obtenu n'est <i>PAS satur&eacute;</i> et vous devez donc tenir compte de la source du graphe pour son interpr&eacute;tation (un lexicogramme r&eacute;cursif satur&eacute; est toujours le m&ecirc;me quel que soit son sommet de d&eacute;part, la source n'a pas de r&ocirc;le particulier pour l'interpr&eacute;tation ---) ;</li>  <li> Soit vous intervenez sur la distance moyenne entre sommets dans le graphe. C'est l'objet du param&egrave;tre "Distance entre sommets".</li>  <li> Soit vous faites g&eacute;n&eacute;rer une repr&eacute;sentation du graphe en plusieurs pages. C'est l'objet du format d'impression "Poster". Vous pourrez alors dessiner n'importe quel graphe de mani&egrave;re lisible. Mais vous devrez l'imprimer au pr&eacute;alable, sur plusieurs pages. Chaque page formera une portion du graphe (elle portera de petites coordonn&eacute;es cart&eacute;siennes situ&eacute;es en bas &agrave; gauche de la feuille) qu'il faudra recomposer apr&egrave;s massicotage des bords de feuilles (d&eacute;sol&eacute; mais aucune imprimante PostScript ne peut imprimer sur le bord d'une page).</li> </ul> Le r&ocirc;le d'un lexicogramme r&eacute;cursif sera plut&ocirc;t celui d'une synth&egrave;se de plusieurs lexicogrammes en relation, chaque sommet repr&eacute;sentant une version condens&eacute;e du lexicogramme accessible par son lien hypertextuel. Le lexicogramme &eacute;tant la repr&eacute;sentation la plus d&eacute;taill&eacute;e des relations entre les formes du vocabulaire (avec la liste de tous les cooccurrents bien sur). <p>L'affichage d'un lexicogramme r&eacute;cursif est compos&eacute; : <ul> <li> de la liste des seuils d'&eacute;lagage utilis&eacute;s.</li>  <br>Comme pour les lexicogrammes, l'affichage d'un lexicogramme r&eacute;cursif commence par &eacute;num&eacute;rer les valeurs de seuils d'&eacute;l&eacute;gage utilis&eacute;es pour la construction du graphe : <ul> <li> du seuil de probabilit&eacute; de cooccurrence maximum <b>p</b> (souvent ajust&eacute; automatiquement par le calcul) ;</li>  <li> du seuil de cofr&eacute;quence minimum <b>cf </b>;</li>  <li> du seuil de fr&eacute;quence minimale de la forme analys&eacute;e <b>f</b> ;</li>  <li> de la distance moyenne minimum <b>d<sub>m </sub></b>;</li>  <li> du nombre maximum de paliers <b>pl</b>.</li> </ul>  <li> d'une synth&egrave;se du graphe annon&ccedil;ant :</li>  <ul> <li> le nombre total de sommets du graphe</li>  <li> le nombre total d'arcs du graphe</li>  <li> la liste des sommets tri&eacute;e par le nombre d&eacute;croissant d'arcs qui leur sont reli&eacute;s (le nombre d'arcs est pr&eacute;sent&eacute; entre parenth&egrave;ses).</li> </ul>  <li> du graphe sous la forme d'une image</li>  <li> d'une ligne de commentaire offrant un lien hypertextuel vers un fichier de la version PostScript du dessin du graphe &agrave; &eacute;ventuellement t&eacute;l&eacute;charger pour obtenir un graphe plus d&eacute;taill&eacute; (vous aurez besoin d'une imprimante PostScript pour l'imprimer) ;</li>  <li> et en option des commentaires d&eacute;taill&eacute;s de l'&eacute;lagage r&eacute;alis&eacute; et &eacute;ventuellement des it&eacute;rations de recherche du meilleur seuil en probabilit&eacute;.</li> </ul>  <h5> <font face="Arial,Helvetica">A propos de la lecture des diff&eacute;rents types de dessins</font></h5> Lors de l'affichage des graphes il y a plusieurs possibilit&eacute;s de placement dans le plan (ou sur la page de dessin si vous pr&eacute;f&eacute;rez) des diff&eacute;rents sommets correspondant aux formes du vocabulaire et des arcs les reliant repr&eacute;sentant leur relation de cooccurrence s'ils en entretiennent une. Il y a deux possibilit&eacute;s diff&eacute;rentes de placement des sommets et des arcs dans <i>weblex</i>. <p><b>1) </b>La premi&egrave;re m&eacute;thode de placement (ou de dessin), qui correspond au placement par d&eacute;faut, t&acirc;che d'ob&eacute;ir aux contraintes (ou r&egrave;gles) suivantes : <ul> <li> les arcs orientent le graphe de la gauche vers la droite du dessin. Donc une forme &agrave; gauche dans un couple (en probabilit&eacute;) doit se trouver &agrave; la gauche de sa forme cooccurrente dans le graphe ;</li>  <li> en consid&eacute;rant les arcs comme des liens de parent&eacute;, chaque g&eacute;n&eacute;ration de sommet doit se trouver align&eacute;e verticalement ;</li>  <li> les arcs ne doivent pas se croiser dans la mesure du possible ;</li>  <li> les arcs doivent &ecirc;tre le plus court possible.</li> </ul> Tous les graphes dessin&eacute;s avec l'option par d&eacute;faut de "placement hi&eacute;rarchique gauche-droite"&nbsp; (et la plupart de ceux pr&eacute;sent&eacute;s dans ce manuel) ob&eacute;issent &agrave; ces contraintes. Ils ont le m&eacute;rite de traduire visuellement la majorit&eacute; des contraintes naturelles de l'espace de cooccurrence repr&eacute;sent&eacute; par le lexicogramme r&eacute;cursif (voir l'<a href="#lxg-rec">exemple du corpus cfdt73 en placement hi&eacute;rarchique gauche-droite</a> ci apr&egrave;s). Mais ils poss&egrave;dent deux d&eacute;fauts pouvant g&ecirc;ner l'interpr&eacute;tation : <ul> <li> d'abord, la succession visuelle des sommets et des arcs induit une interpr&eacute;tation naturellement transitive du graphe. Or, a priori, la relation de cooccurrence mod&eacute;lis&eacute;e est fondamentalement binaire, ce n'est donc pas parce que deux sommets sont en relation qu'un troisi&egrave;me le serait avec le premier simplement parce qu'il serait lui-m&ecirc;me en relation avec le deuxi&egrave;me (l'orientation des arcs n'est pas prise en compte dans notre discussion). Formellement, on peut exprimer cette propri&eacute;t&eacute; de transitivit&eacute; par :&nbsp;&nbsp; <tt>si A->B et B->C alors A->C</tt>&nbsp;&nbsp; (la "<tt>-></tt>" exprimant "est en relation de cooccurrence avec"). Il faut donc rester vigilant vis-&agrave;-vis de certaines interpr&eacute;tations cumulant un parcours de plus d'un arc <sup><a href="#note-lxg-rec-2">2</a></sup> ;</li>  <li> ensuite, l'alignement vertical des g&eacute;n&eacute;rations de sommets est une contrainte forte qui permet d' "&eacute;claircir" le graphe mais reste discutable dans certains cas, car l'alignement vertical induit une interpr&eacute;tation par g&eacute;n&eacute;rations (par alignements), ce qui n'est pas pertinent.</li> </ul> <b>2)</b> La deuxi&egrave;me m&eacute;thode de placement propos&eacute;e dans <i>weblex</i>, appell&eacute;e "non hi&eacute;rarchique", utilise d'autres contraintes pour contrecarrer ces d&eacute;fauts : <ul> <li> l'orientation des arcs est repr&eacute;sent&eacute;e mais n'est plus prise en compte dans les placements&nbsp; ;</li>  <li> pour un sommet donn&eacute;, les arcs entrants ou sortants doivent se r&eacute;partir le plus uniform&eacute;ment possible autour de lui ;</li>  <li> les arcs ne doivent pas se croiser dans la mesure du possible ;</li>  <li> les arcs doivent &ecirc;tre le plus court possible.</li> </ul> Avec ces contraintes les d&eacute;fauts pr&eacute;c&eacute;dants ne sont plus observ&eacute;s et le graphe se r&eacute;partit uniform&eacute;ment autour de son centre de gravit&eacute; (ou barycentre au sens du parcours de graphe). L'interpr&eacute;tation visuelle de la transitivit&eacute; est nettement moins forc&eacute;e et le graphe correspond mieux &agrave; l'id&eacute;e originelle de Maurice Tournier des ondes de choc (comme celles, concentriques, cr&eacute;&eacute;es &agrave; la surface d'un lac par le jet d'une pierre dans l'eau) se faisant &eacute;cho de proche en proche &agrave; partir du "centre" du graphe comme les mots s'appellent de proche en proche &agrave; travers leur contexte d'emploi (voir le <a href="#lxg-rec-nh">deuxi&egrave;me exemple du corpus cfdt73</a> ci apr&egrave;s qui repr&eacute;sente <i>exactement</i> le m&ecirc;me graphe que pr&eacute;c&eacute;demment mais en placement non hi&eacute;rarchique). <br>Ce placement poss&egrave;de cependant ses propres d&eacute;fauts comme celui d'&ecirc;tre nettement moins concis dans le plan et celui de ne plus rendre compte par le placement de la relation gauche-droite en probabilit&eacute;. <br> <hr ALIGN=LEFT SIZE=1 NOSHADE WIDTH="10%"> <br><a NAME="note-lxg-rec-2"></a><sup>2</sup><font size=-1> l'objection classique d'Andr&eacute; Salem &agrave; ces repr&eacute;sentations de lexicogrammes r&eacute;cursifs est celle de la transitivit&eacute; artificielle induite par le parcours de mani&egrave;re analogue au jeu de mots : "bout de ficelle" - "selle de cheval" - "val de seine" - ... Objection &agrave; laquelle Maurice Tournier r&eacute;pond "Oui, mais le graphe peut repr&eacute;senter parfois ce qui aurait pu &ecirc;tre dit, voire ce qui est dit de mani&egrave;re latente et diffuse ...".</font> <br><a NAME="note-lxg-rec-3"></a><sup>3</sup> <font size=-1>l'algorithme de recherche du meilleur seuil de probabilit&eacute; <b>p</b> utilise une m&eacute;thode it&eacute;rative de type Raphson-Newton : le seuil converge arithm&eacute;tiquement et g&eacute;om&eacute;triquement vers la valeur maximalisant le nombre de sommets du lexicogramme r&eacute;cursif, tout en gardant cette valeur en de&ccedil;&agrave; du nombre limite de sommets autoris&eacute;s. Le seuil de probabilit&eacute; initial est de 10% de cooccurrence maximum entre les sommets. Pour chaque it&eacute;ration, l'algorithme proc&egrave;de au calcul du lexicogramme r&eacute;cursif accessible &agrave; partir de la source avec le seuil de probabilit&eacute; courant. Si, pendant le parcours, il y a d&eacute;passement du seuil de sommets autoris&eacute;, il y a un retour arri&egrave;re du pas de recherche, division de ce pas d'un ordre de grandeur et passage &agrave; l'it&eacute;ration suivante. Si, apr&egrave;s 20 it&eacute;rations, aucun graphe correspondant aux crit&egrave;res n'a &eacute;t&eacute; trouv&eacute;, alors le calcul est abandonn&eacute;. Dans ce cas vous devrez contraindre plus fortement les autres seuils disponibles (cofr&eacute;quence, fr&eacute;quence, distance, ...) pour obtenir un graphe affichable (un calcul de lexicogramme tient toujours compte de l'ensemble des seuils du formulaire). Le choix de la probabilit&eacute; <b>p</b> comme contrainte &agrave; optimiser (on aurait put choisir <b>pl</b>, <b>cf</b>, ...) est le plus naturel car elle correspond &agrave; la meilleure estimation des liens de proximit&eacute; entre sommets que nous ayons. Dans certains cas de distributions de fr&eacute;quences de formes et de rencontres dans le corpus, le "relief" de l'espace de cooccurrence, que parcours l'algorithme it&eacute;ratif,&nbsp; peut s'av&eacute;rer trop peu marqu&eacute; pour permettre au seul seuil de probabilit&eacute; de limiter les dimensions du graphe. Ca peut aussi &ecirc;tre le cas quand certaines formes tr&egrave;s fr&eacute;quentes dans le corpus font partie du graphe (on doit alors les "&eacute;laguer" du vocabulaire analys&eacute; &agrave; l'aide de la r&eacute;tention de vocabulaire).</font> <h5> <font face="Arial,Helvetica">A propos des difficult&eacute;s mat&eacute;rielles de lisibilit&eacute; des dessins</font></h5> La finesse de trac&eacute; disponible sur un &eacute;cran d'ordinateur actuel est de l'ordre de 100 points par pouce (1 pouce = 2,54 centim&egrave;tres), soit 100 dpi (dots per inch). <i>weblex</i> g&eacute;n&egrave;re des images &agrave; 85 dpi. Pour le trac&eacute; de graphes de dimensions importantes la finesse de l'&eacute;cran peut ne pas offrir assez de lisibilit&eacute; pour certaines formes car le trac&eacute; des caract&egrave;res est tr&egrave;s sensible &agrave; la r&eacute;solution (un navigateur affiche toujours une image du mieux qu'il peut sur un &eacute;cran). Vous devrez alors imprimer la version PostScript du graphe. Non seulement les imprimantes PostScript offrent une bien meilleure r&eacute;solution que celle d'un &eacute;cran, typiquement de l'ordre de 400 dpi (et bien plus), mais vous avez surtout la possibilit&eacute; d'utiliser des visualisateurs sur &eacute;cran de fichiers PostScript offrant des possibilit&eacute;s d'aggrandissements-r&eacute;tr&eacute;cissements (ou zoom). C'est le cas, par exemple, du logiciel Ghostview<sup><font size=-2>TM</font></sup> qui est gratuit et utilisable sur Windows<sup><font size=-2>TM</font></sup> ou MacOS<sup><font size=-2>TM</font></sup>. Sans parler des possibilit&eacute;s d'&eacute;dition du dessin du graphe offertes par des logiciels comme Adobe Illustrator<sup><font size=-2>TM</font></sup>. <p>Remarque : la version actuelle de l'image hypertextuelle du graphe ne fonctionne pas correctement avec des formes compos&eacute;es de caract&egrave;res accentu&eacute;s (c'est un bug de la biblioth&egrave;que de dessin que nous utilisons). <p>Exemple de lexicogramme r&eacute;cursif dans le corpus cfdt73, &agrave; partir de la forme CFDT : <h3> &nbsp;Lexicogramme r&eacute;cursif autour du p&ocirc;le&nbsp;<EMPH>CFDT</EMPH> dans le corpus <tt>cfdt73</tt></h3> Seuils : <b>p</b> 3.000e-03, <b>r</b> 4, <b>f</b> 4, <b>d<sub><font size=-1>m</font></sub></b> 1000.0, <b>pl</b> 1000 <h3> Synth&egrave;se</h3> 17 noeuds ( 17 arcs ) , socialiste (4) , CFDT (3) , droits (3) , mouvement (3) , travailleurs (3) , France (2) , immigr&eacute;s (2) , pays (2) , politiques (2) , sociaux (2) , soci&eacute;t&eacute; (2) , Tiers-Monde (1) , ouvrier (1) , participation (1) , projet (1) , rapports (1) , transformation (1) <center> <p><a NAME="lxg-rec"></a><img SRC="lxg-rec.gif" height=498 width=588 align=TEXTTOP></center>  <p>Afin d'illustrer les facilit&eacute;s d'&eacute;tiquetage et d'aide &agrave; l'interpr&eacute;tation des graphes par le placement non hi&eacute;rarchique des sommets, voici <i>exactement</i> le m&ecirc;me graphe dont les arcs ont &eacute;t&eacute; &eacute;tiquet&eacute;s par la partie enti&egrave;re du logarithme en base 10 de la probabilit&eacute; de cooccurrence des sommets (soit l'exposant ou encore l'ordre de grandeur de la probabilit&eacute;) et dont les sommets sont plac&eacute;s sans hi&eacute;rarchie gauche-droite. Plus l'&eacute;tiquette d'arc est importante, plus les sommets reli&eacute;s par l'arc sont "attir&eacute;s" en probabilit&eacute; : <center><a NAME="lxg-rec-nh"></a><img SRC="lxg-rec-nh-dp.gif" height=787 width=707 align=TEXTTOP></center>  <p><br> <br> <br> <br> <br> <br> <br> <p>Pour une visualisation de ce lexicogramme r&eacute;cursif de meilleure qualit&eacute;, imprimez la <u><font color="#3333FF">Version PostScript</font></u> de cette image. <p> <hr ALIGN=LEFT SIZE=1 NOSHADE WIDTH="10%"> <br><a NAME="lexicographe"></a><sup>3</sup> le premier nom que nous avions trouv&eacute;, "lexicographe", n'a pas eu beaucoup de succ&egrave;s &agrave; cause de son homonymie. <br>&nbsp; <p><b><font face="Arial,Helvetica"><font size=+2>17.&nbsp;<a NAME="lexs-recs"></a>Lexicogrammes r&eacute;cursifs</font></font></b> <p>&nbsp;De la m&ecirc;me mani&egrave;re qu'un lexicogramme est une repr&eacute;sentation <i>localis&eacute;e</i> autour d'une forme p&ocirc;le de l'espace de cooccurrence reliant les formes du vocabulaire, un lexicogramme r&eacute;cursif est une repr&eacute;sentation d'une <i>partie</i> de cet espace de cooccurrence accessible &agrave; partir d'un de ses sommets. Le calcul des Lexicogrammes r&eacute;cursifs r&eacute;alise le calcul de <i>toutes</i> les parties connexes de l'espace de cooccurrence pour l'ensemble du vocabulaire du corpus, &agrave; concurrence d'un certain nombre de seuils. <br>L'algorithme utilis&eacute; est le suivant : <ul>Tant qu'il y a des formes &agrave; analyser dans le vocabulaire r&eacute;p&eacute;ter les &eacute;tapes 1 &agrave; 3 :</ul>  <ol> <ol> <li> prendre une forme quelconque du vocabulaire encore disponible ;</li>  <li> calculer le lexicogramme r&eacute;cursif accessible &agrave; partir de cette forme (aucune forme participant &agrave; un lexicogramme r&eacute;cursif pr&eacute;c&eacute;dent ne peut participer &agrave; ce graphe du fait de la propri&eacute;t&eacute; de connexit&eacute; de la composante) ;</li>  <li> retirer du vocabualire toutes les formes participant au graphe obtenu.</li> </ol> </ol> Les seuils ... (&agrave; faire) <p>L'affichage de la liste des lexicogrammes r&eacute;cursifs peut prendre deux formes : <ul> <li> soit celle d'une synth&egrave;se de chaque graphe obtenu, annon&ccedil;ant simplement les formes participant au graphe, tri&eacute;e par ordre d&eacute;croissant du nombre de sommets ;</li>  <li> soit celle de la liste des images de chaque graphe tri&eacute;e par ordre d&eacute;croissant du nombre de sommets.</li> </ul> Exemple d'affichage sous la forme d'une synth&egrave;se : <h3> Synth&egrave;se des lexicogrammes r&eacute;cursifs du corpus <tt>cfdt73</tt></h3> Seuils : <b>p</b> 1.000e-02, <b>r</b> 4, <b>f</b> 4, <b>d<sub><font size=-1>m</font></sub></b> 20.0, <b>pl</b> 1000 <p>Tri d&eacute;croissant par le nombre de noeuds par lexicogramme. <ul> <li> 35 (ouvrier mouvement projet culture unitaire caisse d&eacute;finition d&eacute;veloppe pratique r&eacute;flexion syndicat action fonds d&eacute;fense nationale professionnelle section syndicale organisation s&eacute;curit&eacute; &eacute;conomique sociale transformation soci&eacute;t&eacute; socialiste doivent France politiques rapports sociaux droits immigr&eacute;s participation travailleurs CFDT)</li>  <li> 12 (notamment mainmise part financiers production &eacute;change grands propri&eacute;t&eacute; moyens socialisation information capitalistes)</li>  <li> 7 (ouvri&egrave;re conscience masse syndicalisme classe lutte anticapitaliste)</li>  <li> 6 (conf&eacute;d&eacute;r&eacute;es structures syndicales conf&eacute;d&eacute;ration organisations confrontation)</li>  <li> 4 (d&eacute;mocratique construction socialisme autogestionnaire)</li>  <li> 4 (objectifs luttes d&eacute;velopper capacit&eacute;)</li>  <li> 3 (d&eacute;cide congr&egrave;s conf&eacute;d&eacute;ral)</li>  <li> 2 (frappe force)</li>  <li> 2 (gouvernement fran&ccedil;ais)</li>  <li> 2 (national conseil)</li>  <li> 2 (nucl&eacute;aires armes)</li>  <li> 2 (pays Tiers-Monde)</li>  <li> 2 (peuples paix)</li>  <li> 2 (place mise)</li>  <li> 2 (prise charge)</li>  <li> 2 (rapport forces)</li>  <li> 2 (seulement non)</li>  <li> 2 (syst&egrave;me capitaliste)</li>  <li> 2 (travail cause)</li>  <li> 2 (vie aspects)</li> </ul> La synth&egrave;se pr&eacute;c&eacute;dente est caract&eacute;ristique de l'usage de <i>weblex</i>. Cependant, pour vous pr&eacute;senter les graphes eux-m&ecirc;mes dans ce manuel nous avons contraint un peu plus les seuils de sorte &agrave; limiter leur taille. Voici donc une nouvelle synth&egrave;se correspondant &agrave; des seuils plus restrictifs (<b>p</b> &lt; 1.0E-03, <b>r</b> >= 6, <b>f</b> >= 4) pour le m&ecirc;me corpus. Comme pr&eacute;c&eacute;demment, <i>tous</i> les lexicogrammes r&eacute;cursifs du vocabulaire correspondant aux seuils indiqu&eacute;s sont calcul&eacute;s et pr&eacute;sent&eacute;s, sans exception. On pourra noter le r&eacute;arrangement des "composantes connexes" du fait des changements de seuils. On obtient : <h3> &nbsp;Synth&egrave;se des lexicogrammes r&eacute;cursifs du corpus <tt>cfdt73</tt></h3> Seuils : <b>p</b> 1.000e-03, <b>r</b> 6, <b>f</b> 3, <b>d<sub><font size=-1>m</font></sub></b> 1000.0, <b>pl</b> 1000 <p>Tri d&eacute;croissant par le nombre de noeuds par lexicogramme. <ul> <li> 5 (ouvri&egrave;re lutte masse syndicalisme classe)</li>  <li> 4 (d&eacute;mocratique construction socialisme autogestionnaire)</li>  <li> 4 (ouvrier mouvement socialiste CFDT)</li>  <li> 4 (&eacute;conomique sociale syndicale organisation)</li>  <li> 3 (d&eacute;fense nationale caisse)</li>  <li> 3 (production moyens information)</li> </ul> Voici les graphes correspondants : <ul><img SRC="lxg-rec-s.gif" height=765 width=617> <br>&nbsp; <p>Voici les m&ecirc;mes graphes dont les arcs ont &eacute;t&eacute; &eacute;tiquet&eacute;s par la partie enti&egrave;re du logarithme en base 10 de la probabilit&eacute; de cooccurrence des sommets (pour une description de ce type d'&eacute;tiquettes voir la pr&eacute;sentation pr&eacute;c&eacute;dente de l'<a href="#lxg-rec-nh">&eacute;tiquetage d'un graphe de cooccurrence r&eacute;cursif</a> non hi&eacute;rarchique)&nbsp; : <p><img SRC="lxg-rec-s-dp.gif" height=838 width=708> <br>&nbsp; <br>&nbsp;</ul>  <br>&nbsp; </body> </html> 
