<HTML>    <HEAD>    <TITLE>L'analyse de textes littraires assiste par ordinateur: une introduction  </TITLE>    </HEAD>    <BODY>           <H1>L'analyse de textes littraires assiste par ordinateur: une introduction  </H1>    <H3>par</H3>    <H1>Vronique Parenteau</H1>    <HR>      <A HREF="matv4no1.htm"><H2>Cursus vol. 4 no 1 (automne 1998)</H2></A>        <P><STRONG>Cursus</STRONG> est le priodique lectronique tudiant de    l'cole de bibliothconomie et des sciences de l'information (EBSI) de    l'Universit de Montral.  Ce priodique diffuse des textes    produits dans le cadre des cours de l'EBSI.</P>        <P>ISSN 1201-7302        <P><ADDRESS>C. lec. : <A    HREF="mailto:cursus@ere.umontreal.ca">cursus@ere.umontreal.ca</A><BR>    URL : <A    HREF="/cursus/index.html">http://www.fas.umontreal.ca/ebsi/cursus/</A></ADDRESS>        <H2>Droits d'auteur</H2>        <P>Tout texte demeure la proprit de son auteur.  La reproduction de ce    texte est permise pour une utilisation individuelle.  Tout usage    commercial ncessite une permission crite de l'auteur.     <BR><BR>    <HR>        <H2>L'auteure</H2>    <P>Aprs des tudes de premier cycle en tudes littraires  l'Universit du Qubec  Montral, Vronique Parenteau a obtenu sa matrise  l'EBSI avec le profil "Analyse de l'information et bases de donnes" au printemps 1998. Durant l't 1997, elle a travaill  la cration du Rpertoire de sites Web de rfrence du Qubec (<A HREF="http://www2.biblinat.gouv.qc.ca/wgraphie/intro.htm">http://www2.biblinat.gouv.qc.ca/wgraphie/intro.htm</A>) de la Bibliothque nationale du Qubec. Depuis juin 1998, elle est bibliothcaire pour l'entreprise CEDROM-SNi.  </P>    <P>Le texte suivant a t produit dans le cadre du cours BLT 6271, Recherche en analyse documentaire, sous la direction de Mme Michle Hudon.  </P>    <ADDRESS>  <P>Pour joindre l'auteure : <A HREF="mailto : parenteauv@cedrom-sni.qc.ca">  parenteauv@cedrom-sni.qc.ca</A>  </P>  </ADDRESS>    <HR>    <BR>    <H2><A NAME="matieres">Table des matires</A> </H2>      <UL>  <LI><A HREF="#intro">Introduction</A></LI>  <LI><A HREF="#1">1.</A>  L'analyse statistique de la littrature</LI>  <LI><A HREF="#2">2.</A>  Les procds</LI>  	<UL>  	<LI><A HREF="#2.1">2.1</A>  Analyse de donnes "brutes"</LI>  	<LI><A HREF="#2.2">2.2</A>  Analyse du contenu</LI>  	</UL>  <LI><A HREF="#3">3.</A>  Les usages</LI>  	<UL>  	<LI><A HREF="#3.1">3.1</A>  Comparaisons</LI>  	<LI><A HREF="#3.2">3.2</A>  Dterminer la paternit d'un texte</LI>  	<LI><A HREF="#3.3">3.3</A>  Distinguer les imitations des oeuvres authentiques</LI>  	<LI><A HREF="#3.4">3.4</A>  L'tude des motifs rythmiques dans les vers</LI>  	<LI><A HREF="#3.5">3.5 </A> Marques d'un auteur dans l'volution du langage</LI>  	</UL>  <LI><A HREF="#4">4.</A>  Complmentarit homme-machine</LI>  <LI><A HREF="#5">5.</A>  Critiques et limites de l'analyse de textes par ordinateur</LI>  <LI><A HREF="#conclu">Conclusion</A></LI>  <LI><A HREF="#biblio">Bibliographie</A></LI>  </UL>    <BR>    <P align=right>  <A NAME="intro"></A>  <CITE>"The statistical analysis of a literary text can be justified by the need to apply an   objective methodology to works which for a long time may have received only impressionistic   and subjective treatment.  Hesitation by literary scholars and mistrust of such a blatantly quantitative   approach may be alleviated by choosing the least contestable mode of analysis, namely that of   counting"</CITE> (<A HREF="#Holmes1994">Holmes, 1994, p.87</A>).</P>    <H2>Introduction</H2>    <P>Certains diront que, s'il y a un domaine que l'informatique n'a pas encore envahi, c'est bien la littrature, cet art trs ancien que seul le cerveau humain peut produire, lire et comprendre.  Comment un ordinateur pourrait-il intervenir dans l'analyse d'un texte issu de l'imagination d'un homme ou d'une femme?  Littrature et informatique ne semblent pas pouvoir faire trs bon mnage.  </P>  <P>Pourtant, il existe un certain nombre de spcialistes - pour la plupart, des non littraires - qui misent sur cet outil pour les assister dans leurs analyses littraires.  Il s'agit bien d'une "assistance", puisque l'ordinateur ne peut pas analyser une oeuvre littraire comme le ferait un chercheur humain.  Il faut videmment une bonne dose d'interprtation dans l'analyse littraire et c'est une opration que mme le plus volu des logiciels connus ne parviendra pas  accomplir.  </P>  <P>La grande "nouveaut" apporte par l'informatique aux tudes littraires, c'est une faon d'analyser les textes quantitativement, statistiquement.  Ce sont des mthodes qui permettent de traduire en chiffres, en tableaux, en graphiques, des donnes textuelles qui font gnralement l'objet d'analyses qualitatives.  </P>  <P>Qu'est-ce que l'informatique peut apporter  l'tude de la littrature?  Qu'est-ce que l'analyse statistique permet de dcouvrir, de comprendre au sujet des oeuvres littraires?  Qu'est-ce qu'un ordinateur peut faire de plus qu'un tre humain en ce domaine?  Quels usages les chercheurs font-ils de cet outil qu'est l'ordinateur?  Quelles sont les limites de l'informatique dans l'tude de la littrature?  </P>  <P>C'est  ces questions que ce texte veut rpondre en proposant un tat de la question sur l'analyse de textes littraires assiste par ordinateur.  Il ne s'agit donc pas de dcrire des logiciels d'analyse de texte ni de comprendre le fonctionnement technique et statistique de l'analyse de texte par ordinateur.  Il s'agit plutt de comprendre comment l'ordinateur peut tre utile  l'analyse littraire et quelles sont ses limites.  </P>  <P>La premire partie de cet expos vise  dfinir brivement en quoi consiste l'analyse de textes littraires assiste par ordinateur (i.e. leur analyse statistique) et, plus particulirement, la stylomtrie qui est une faon de quantifier le style.  La seconde partie prsente les procds selon lesquels les logiciels informatiques peuvent mesurer le style d'un texte littraire, les variables dont ils tiennent compte.  Ensuite, plusieurs exemples concrets d'analyses statistiques sont prsents afin d'illustrer les usages que les spcialistes font de l'ordinateur dans leurs recherches en littrature.  La section suivante montre la complmentarit entre le travail humain et celui de la machine.  Enfin, la cinquime et dernire partie est consacre aux limites de l'analyse de textes littraires par ordinateur et  la synthse de diffrentes critiques formules  l'endroit de cette faon d'tuder la littrature.  </P>      <H2><A NAME="1">1.</A> L'analyse statistique de la littrature</H2>    <P>Dans le domaine des tudes littraires, on rencontre surtout des analyses qualitatives d'oeuvres, de courants, de genres.  Dans le cas d'tudes visant  dterminer la paternit d'un texte, par exemple, on se tourne gnralement vers l'opinion des experts en littrature sur le style et les subtilits de l'usage du langage, du vocabulaire et de la grammaire.  Arriver  un consensus des opinions, voil le problme de la plupart des domaines impliquant une grande part "d'intuition" humaine et d'"exprience", comme c'est le cas en tudes littraires.  Les mthodes quantitatives et statistiques d'analyse des donnes pourraient avoir beaucoup  offrir aux sciences humaines, dont font partie les tudes littraires (<A HREF="#Lowe1995">Lowe et Matthews, 1995</A>).  Elles peuvent apporter des informations supplmentaires qui sont quantifiables.  </P>    <P>La majorit des analyses de textes littraires impliquant l'informatique utilisent la stylomtrie comme moyen d'analyse.  Il s'agit en fait d'une forme de quantification du style.  Le style d'un auteur est ce qui tend  distinguer son criture entre toutes.<BR>  <CITE>"Recognizing, for example, that even a writer who flaunts an abstruse vocabulary will also need to use many mundane words, stylisticians regard style as a general predisposition toward a particular mode of expression rather than an invariant habit or constant"</CITE> (<A HREF="#Sigelman1996">Sigelman et Jacoby, 1996, p.11</A>).<BR>  Chaque texte se dfinit par un ensemble de caractristiques statistiques, mesurables.  Si plusieurs oeuvres d'un auteur comportent les mmes caractristiques, l'auteur fait un usage rcurrent d'un style particulier.  Si l'oeuvre d'aucun autre auteur ne possde les mmes caractristiques, on peut dire que son style est unique (<A HREF="#Holmes1994">Holmes, 1994</A>).  </P>    <P>La stylomtrie - aussi appele "statistique stylistique" - est l'application des mthodes mathmatiques pour extraire des mesures quantitatives d'un texte (<A HREF="#Lowe1995">Lowe et Matthews, 1995</A>).  Les donnes sur lesquelles se penche la stylomtrie, ce sont les mots.  Ils sont la matire brute de cette science.  Selon David I. Holmes, aucun stylomtriste n'est encore parvenu  tablir une mthodologie qui arrive  mieux saisir le style d'un texte que celle qui s'appuie sur des lments lexicaux (<A HREF="#Holmes1994">1994</A>).  Holmes explique qu'il n'y a pas meilleurs paramtres pour tablir une comparaison objective entre des auteurs:<BR>  <CITE>The lexical level is the obvious place to initiate stylistic investigations, since questions about style are essentially comparative and more data exist at the lexical level than at any other in the form of computed concordances</CITE> (<A HREF="#Holmes1994">1994, p.91</A>).  </P>    <P>Les caractristiques stylistiques d'un texte doivent, pour tre tudies par ordinateur, avoir ces proprits dcrites par Bailey: "they should be salient, structural, frequent and easily quantifiable, and relatively immune from conscious control" (<A HREF="#Holmes1994">Holmes, 1994, p.88</A>, <A HREF="#Bailey1979">citant Bailey, 1979</A>). On espre, en mesurant de telles caractristiques, dcouvrir l'unicit de l'criture d'un auteur et arriver  distinguer son style de celui d'un autre.  On veut faire la distinction entre les vritables diffrences stylistiques et les variations dues au hasard (<A HREF="#Holmes1994">Holmes, 1994</A>).  </P>    <P>Le meilleur outil pour faire l'analyse stylomtrique d'un texte, pour en tirer des statistiques, est probablement l'informatique.  Les logiciels d'analyse de texte<A HREF="#note1"><SUP>1</SUP></A> permettent aux chercheurs de reprer des mots et expressions, de produire des profils statistiques, des graphiques, des tableaux et ce, rapidement et efficacement.  </P>    <H2><A NAME="2">2.</A> Les procds</H2>    <P>L'ordinateur ne peut videmment pas analyser un texte avec la mme profondeur que le ferait un chercheur humain.  Les objets de l'analyse par ordinateur sont de deux ordres: les donnes "brutes" (les chanes de caractres, les syllabes, la ponctuation, etc.) et celles qui sont plus de l'ordre du contenu (le vocabulaire et les thmes).  </P>    <H3><A NAME="2.1">2.1</A> Analyse de donnes "brutes"</H3>    <P>Comme cela a dj t mentionn plus haut, les mots sont les donnes brutes de la stylomtrie.  L'ordinateur peut les identifier grce aux espaces et aux marques de ponctuation (<A HREF="#Fortier1995">Fortier, 1995</A>).  L'ordinateur permet de compter les mots contenus dans un texte, de reprer ceux qui sont les plus utiliss, de les localiser pour mieux voir le contexte de leur utilisation ou encore dans le but de faire un index qui facilitera leur reprage ultrieur, de dterminer les intervalles entre les diffrentes occurences d'un mot, etc. (<A HREF="#Johnson1996b">Johnson, 1996b</A>).  En 1887, dans son article "The Characteristic Curves of Composition" paru dans la revue <I>Science</i>, T.C. Mendenhall affirmait que la longueur des mots tait une caractristique pouvant permettre de distinguer les auteurs (<A HREF="#Holmes1994">Holmes, 1994</A>).  Depuis, plusieurs tudes ont t faites  partir de cette thorie.  L'avnement de l'informatique a de beaucoup facilit ce type d'analyse.  </P>  <P>Une autre faon de dcouvrir des traits stylistiques distinctifs, selon Holmes, est de calculer les pourcentages de noms, verbes, adjectifs, adverbes, etc.,  condition, bien sr, qu'ils puissent tre reconnus fidlement (<A HREF="#Holmes1994">1994</A>).  En effet, certains mots peuvent laisser planer un doute quant  leur nature (les mots <EM>brise</EM>, <EM>marche</EM> et <EM>porte</EM>, par exemple, peuvent aussi bien tre des noms communs que des verbes accords au prsent de l'indicatif).  </P>  <P>L'usage des mots offre plusieurs possibilits de discrimination.  Selon Holmes, "some words vary considerably in their rate of use from one work to another by the same author.  For discrimination purposes we need context-free or "function" words to be able to conduct reliable comparisons between literary works" (<A HREF="#Holmes1994">1994, p.90</A>).  </P>  <P>Outre les mots, d'autres aspects d'un texte peuvent tre pris en considration par l'ordinateur pour analyser le style.  Les syllabes, notamment, peuvent apporter de bons indices aux tudes sur la paternit d'un texte, selon Holmes.  Certains auteurs ont un style plus homogne en ce qui concerne la distribution du nombre de syllabes par mot (<A HREF="#Holmes1994">Holmes, 1994</A>).  </P>  <P>Les signes de ponctuation sont galement facilement reprables et analysables par ordinateur.  Une tude mene par tienne Brunet montre, par exemple, l'usage des divers signes de ponctuation chez six auteurs franais: Marcel Proust, mile Zola, Ren de Chateaubriand, Jean-Jacques Rousseau, Jean Giraudoux, et Victor Hugo.  Brunet a notamment dcouvert que Chateaubriand et Rousseau sont les seuls  continuer  cultiver les signes de ponctuations "intermdiaires" (deux points, point-virgule), que Hugo et Giraudoux utilisent beaucoup le point et les signes exepressifs (point d'interrogation et point d'exclamation) et que Proust utilise beaucoup la virgule, tant donn que ses phrases sont trs longues (<A HREF="#Brunet1991">Brunet, 1991</A>)<A HREF="#note2"><SUP>2</SUP></A>.  </P>  <P>L'ordinateur peut aussi permettre d'tudier l'volution de la longueur des phrases dans un texte ou encore la place des dialogues par rapport aux passages narratifs (<A HREF="#Johnson1996b">Johnson, 1996b</A>).  </P>    <H3><A name="2.2">2.2</A> Analyse du contenu</H3>    <P>Les analyses bases sur les donnes "brutes" peuvent paratre assez simples, mais on peut s'en servir pour aller plus loin en analysant le vocabulaire et les thmes (<A HREF="#Johnson1996b">Johnson, 1996b</A>).  </P>    <H4>2.2.1  Le vocabulaire</H4>    <P>L'une des notions fondamentales de la stylomtrie, c'est la mesure de ce que l'on peut appeler la "richesse" et la "diversit" du vocabulaire de l'auteur.  La prmisse de base est que l'auteur a  sa disposition une certaine quantit de mots, une certaine "banque" de mots et que parmi ceux-l, il en privilgiera certains aux dpens des autres (<A HREF="#Holmes1994">Holmes, 1994</A>).  Si on prend un chantillon de l'oeuvre d'un auteur, on peut s'attendre  y retrouver le reflet de son vocabulaire.  Si on peut trouver une mesure qui puisse reprsenter statistiquement le vocabulaire, on pourrait l'utiliser pour fins de comparaisons.  </P>  <P>Une telle mesure existe.  En anglais, on l'appelle le "type-token ratio".  Il s'agit du nombre d'units lexicales (i.e. le nombre de formes diffrentes) formant le vocabulaire de l'chantillon divis par le nombre d'units (i.e. le nombre total de mots) formant l'chantillon (<A HREF="#Holmes1994">Holmes, 1994</A>)<A HREF="#note3"><SUP>3</SUP></A>.  Une autre faon de mesurer le vocabulaire est de calculer la chance que les deux membres d'une paire de mots (choisie au hasard) appartiennent au mme "type" (i.e. la mme forme d'un mot).  On peut aussi se servir de la frquence des mots en comptant le nombre de mots utiliss une fois, deux fois, trois, quatre, etc.  Plus il y a de mots qui ne reviennent pas souvent, plus le vocabulaire est riche.  On pourrait aussi tenter d'tablir la quantit de mots rares ou techniques.  Mais il faudrait alors une bonne part de travail humain pour dterminer quels mots pourraient appartenir  ces catgories (<A HREF="#Holmes1994">Holmes, 1994</A>).  </P>  <P>Le vocabulaire peut tre utilis comme moyen de comparaison entre plusieurs textes, comme l'a fait notamment tienne Brunet.  Afin de comparer le vocabulaire des diffrents textes de Victor Hugo, il a fait une analyse qui tient compte de ce qui pourrait tre traduit comme la "jonction lexicale" ("the lexical connection"), c'est--dire la distance entre le vocabulaire de deux textes.  Plusieurs textes de Hugo ont t tudis par paires.  Pour chacune de ces paires, le chercheur a considr tous les mots des deux textes tudis et la frquence de chacun dans chaque texte.  Les calculs effectus par l'ordinateur ont permis de tracer une carte que Brunet dcrit ainsi: "at the bottom are grouped all the poetic collections, while the novels and plays are placed in the upper half, without merging too much into each other" (<A HREF="#Brunet1991">Brunet, 1991, p.76</A>).  Il a donc constat que le vocabulaire des pomes se distingue de celui des romans, des pices de thtre et des lettres.  </P>    <H4>2.2.2  Les thmes et les champs lexicaux</H4>    <P>L'tude par ordinateur du vocabulaire dans un texte peut aussi permettre de saisir les thmes dont il est principalement question dans ce texte.  Il s'agit d'utiliser l'ordinateur pour tracer la distribution du vocabulaire, des mots qui voquent les diffrents thmes (<A HREF="#Fortier1995">Fortier, 1995</A>).  La prsence de concepts donns et leur importance relative n'est pas toujours vidente  l'oeil nu (<A HREF="#Laffal1995">Laffal, 1995</A>).  Leur reprage par ordinateur peut donc faciliter le travail du chercheur.  </P>  <P>Pour Julius Laffal, l'analyse des concepts d'un texte a deux utilits: "One is to gain insight into the similarities and differences between the texts for comparative studies.  The second is to garner cues to the author's conceptual orientation in the texts under study" (<A HREF="#Laffal1995">1995, p.343</A>).  </P>  <P>L'analyse de concepts - telle que dcrite par Laffal (<A HREF="#Laffal1995">1995</A>) - est une forme d'analyse de contenu base sur des catgories d'ides (ou <EM>concepts</EM>) reprsentes par les mots d'un texte.  Chaque mot du texte est cherch par l'ordinateur dans un dictionnaire contenant des mots auxquels les concepts qu'ils voquent sont associs.  Puis, un profil de la frquence et de la distribution des concepts est gnr.  Paul A. Fortier (<A HREF="#Fortier1995">1995</A>) prcise que le texte doit tre encod avant d'tre compar au dictionnaire.  L'encodage dont il parle concerne les units linguistiques et les parties du discours.  </P>  <P>Pour construire le dictionnaire automatis, les thmes sont identifis d'aprs des catgories smantiques.  La catgorisation se construit beaucoup par oppositions et similitudes  partir desquelles on tablit une structure hirarchique.  Le rsultat est donc trs semblable au clbre thsaurus de Roget<A HREF="#note4"><SUP>4</SUP></A> (<A HREF="#Fortier1995">Fortier, 1995</A>; <A HREF="#Laffal1995">Laffal, 1995</A>).  Chaque catgorie doit tre exclusive et pas trop large pour tre significative.  Lorsque les thmes ont t tablis, il ne reste plus qu' y associer les diffrents mots qui les voquent.  Selon le logiciel utilis, l'ordinateur cherchera le mot exact parmi les entres du dictionnaire ou bien il pratiquera une certaine lemmatisation et trouvera l'entre la plus semblable (<A HREF="#Laffal1995">Laffal, 1995</A>).  </P>  <P>tienne Brunet (<A HREF="#Brunet1991">1991</A>) a fait l'analyse de l'volution des thmes de la nature et du temps dans <I> la recherche du temps perdu</I> de Marcel Proust.  Il a donc tudi ces champs lexicaux, c'est--dire l'ensemble des mots se rapportant  ces thmes, dans les sept romans formant ce rcit.  Les graphiques tracs par le logiciel utilis par Brunet montraient que le thme de la nature devient moins important au fil de la progression du rcit tandis que celui du temps l'est de plus en plus.  </P>  <P>Paul A. Fortier (<A HREF="#Fortier1995">1995</A>) a fait l'analyse de certains champs lexicaux du roman <I>L'Immoraliste</I> d'Andr Gide.  Il a tudi plusieurs thmes (et leurs champs lexicaux) regroups sous les grands thmes de la sant et de la maladie du point de vue de la frquence de leurs occurences pour vrifier leur importance relative les uns par rapport aux autres.  </P>    <H2><A name="3">3.</A>  Les usages</H2>    <P>La stylomtrie, l'analyse statistique des mots, du vocabulaire et des thmes composant une oeuvre littraire, peut mener  des tudes un peu plus pousses.  On utilise souvent les rsultats de ce type d'analyse pour comparer entre eux des oeuvres et des auteurs, pour dterminer la paternit d'un texte, ou pour trouver ce qui distingue une oeuvre "authentique" d'un pastiche ou d'une imitation.  L'analyse des motifs rythmiques des vers en posie ou dans les pices de thtre par l'tude des mots et des syllabes est une autre faon d'observer le style d'un auteur.  </P>    <H3><A name="3.1">3.1</A>  Comparaisons</H3>    <P>L'un des types d'tudes que l'on retrouve le plus frquemment dans le domaine de l'analyse de textes littraires assiste par ordinateur, est la comparaison de deux ou plusieurs textes entre eux, qu'ils soient d'un mme auteur ou d'auteurs diffrents.  La comparaison peut tre base sur diffrents aspects, notamment le vocabulaire et les concepts abords.  </P>    <H4>3.1.1  Par le vocabulaire</H4>    <P>Le chercheur Lee Sigelman (<A HREF="#Sigelman1995">1995</A>), s'est servi de l'analyse du vocabulaire par ordinateur pour juger de la qualit de travail de Marion Mainwaring qui a tent de complter <I>The Buccaneers</I>, un roman de l'amricaine Edith Wharton.  Cette oeuvre, demeure inacheve en raison du dcs de l'auteure en 1937, avait tout de mme t publie en 1938.  Aux vingt-neuf chapitres qui avaient t crits, Mainwaring en a ajout douze.  L'oeuvre "complte" a t publie dans la controverse en 1993.  Les critiques taient effectivement trs sceptiques et diviss quant au succs avec lequel Mainwaring avait russi son entreprise.  C'est pourquoi Sigelman a voulu analyser les deux parties de l'oeuvre (celle produite par Wharton et celle ajoute par Mainwaring) afin d'valuer la fidlit avec laquelle Mainwaring avait complt le rcit de Wharton.  </P>  <P>Sigelman a fait une analyse, chapitre par chapitre, du ratio entre les mots nouveaux (i.e. n'apparaissant pas dans les chapitres prcdents) et le nombre total de mots (<A HREF="#Sigelman1995">"the ratio of new types to tokens", 1995, p.273</A>).  L'avantage de cette mesure statistique, c'est qu'elle est relativement simple et que la richesse du vocabulaire - qu'elle mesure - est reconnue comme tant une caractristique gnralement stable chez un auteur.  </P>  <P>Sigelman a d'abord appliqu cette mthode  trois romans d'Edith Wharton: <I>The House of Mirth</I> (1905), <I>Ethan Frome</I> (1911) et <I>The Age of Innocence</I> (1920).  Il a ainsi pu constater que le ratio de nouveaux mots suivait une progression semblable dans chacun des textes de Wharton.  L'analyse des vingt-neuf chapitres de <I>The Buccaneers</I> crits par Wharton a ensuite montr que cette progression suivait, l aussi, sensiblement le mme modle.  Par contre, Sigelman a pu remarquer une brisure dans la progression de l'apparition de nouveaux mots dans les chapitres ajouts par Mainwaring.  "The ratio of types to tokens turns out to be 8840/89494, or 0.099, for Wharton's twenty-nine chapters of <I>The Buccaneers</I>, as compared to 5791/33023, or 0.175, for Mainwaring's twelve chapters" (<A HREF="#Sigelman1995">1995, p.273</A>).  Il apparait donc que Mainwaring emploie un vocabulaire plus riche que Wharton.  Cependant, pour que l'analyse soit plus reprsentative, Sigelman a repris l'analyse avec des chantillons de mme taille, soit les douze chapitres de Mainwaring et les dix premiers de Wharton (un peu plus de 30,000 mots dans chaque cas).  La diffrence entre le ratio de nouveaux mots chez les deux auteurs tait alors beaucoup moins importante: 0,159 pour Wharton et 0.175 pour Mainwaring.  Il y a donc peu de diffrence dans la richesse du vocabulaire si on tudie globalement chacune des deux parties.  </P>  <P>Mais ce qu'il est plus intressant de vrifier, c'est si la narration du roman est "rompue"  cause du changement d'auteur, en observant s'il y a rupture dans l'volution du ratio de nouveaux mots d'un chapitre  l'autre.  Sigelman pose la question: "Is the junction between Wharton's and Mainwaring's chapters seamless, or does it betray clear evidence of disruption of the narrative flow?" (<A HREF="#Sigelman1995">1995, p.274</A>).  Il a compar - du point de vue du ratio de nouveaux mots - les chapitres de Mainwaring avec les autres chapitres de <I>The Buccaneers</I>, mais aussi les autres romans de Wharton.  Il a pu voir que dans les romans de Wharton et ses chapitres de <I>The Buccaneers</I>, le ratio fait une parabole vers le bas, avec quelques rares et faibles remontes.  Cela s'explique simplement par le fait que, au dbut de la narration, l'auteur a besoin de plusieurs mots pour dcrire les lieux, introduire les personnages, mettre l'action en contexte.  Dans<I> The Buccaneers</I>,  l'endroit o Mainwaring fait son entre (au chapitre 30), il y a une grosse remonte du ratio, donc beaucoup de nouveaux mots d'un coup.  </P>  <P>Deux autres chercheurs, J.F. Burrows et D.H. Craig (<A HREF="#Burrows1994">1994</A>), ont aussi utilis l'analyse du vocabulaire pour fins de comparaison.  Des critiques ont qualifi les tragdies anglaises romantiques de pauvres imitations des tragdies de la Renaissance.  Burrows et Craig ont voulu voir  quel point ces deux groupes d'oeuvres taient semblables ou dissemblables.  Leur objectif tait de dterminer les diffrences systmatiques entre ces deux groupes de textes du mme genre mais produits  des priodes trs loignes dans le temps.  Ils espraient ainsi apporter de nouveaux lments au dbat.  </P>  <P>Burrows et Craig ont choisi dix pices de chaque groupe et ont fait des comparaisons statistiques sur la base des mots les plus utiliss.  L'analyse leur a fait voir des diffrences videntes entre les deux groupes, allant au-del des simples changements historiques du langage.  "The Romantic tragedies are more expository; the Renaissance ones include more commonplace interactions between characters.  The later plays do not show the marked variations in function-word frequencies of their predecessors" (<A HREF="#Burrows1994">Burrows et Craig, 1994, p.63</A>).  Ils ont pu constater que, parmi les pices de la Renaissance, celles de William Shakespeare prsentent  la fois les plus grandes affinits et les plus grandes diffrences par rapport aux tragdies romantiques.  </P>    <H4>3.1.2  Par les concepts abords</H4>    <P>L'analyse de concepts est un autre bon moyen de comparaison.  On peut comparer, par exemple, les profils de concepts de deux oeuvres entre eux ou encore les frquences relatives de diffrents concepts pour une mme oeuvre.  </P>  <P>C'est un peu ce qu'a fait Julius Laffal (<A HREF="#Laffal1995">1995</A>).  Voici comment il dcrit son procd:<BR>  <CITE>To determine if profiles A and B are significantly different both are correlated with a third profile, C, thus providing the two correlation values, r(AC) and r(BC).  A z' transformation is applied to the correlations.  The difference between z'(AC) and z'(BC), divided by the sampling error of the difference, is evaluated for significance against the normal curve</CITE> (<A HREF="#Laffal1995">Laffal, 1995, p.342</A>).  </P>    <P>Laffal a voulu vrifier si la pense de Jonathan Swift avait chang entre 1697 et 1725 en tudiant les concepts traits dans deux de ses oeuvres:<I> A Tale of a Tub</I> et <I>Gulliver's Travels</I>, le premier publi en 1704, mais crit vers 1697 alors que l'auteur avait trente ans et le second crit entre 1721 et 1725. Il a donc produit, pour chaque livre, deux profils, l'un tant une liste alphabtique des concepts avec leur frquence et leur importance (en pourcentage) par rapport au total, et l'autre tant une liste de ces mmes concepts classs selon leur frquence.  Il a aussi fait l'analyse (et donc tabli les profils) d'autres crits de Swift (des lettres et des pomes) contemporains  ces deux textes afin de pouvoir valuer ses rsultats dans un contexte plus large.  Il a par exemple vrifi,  l'aide des profils de concepts, si <I>Gulliver</I> ressemblait davantage aux textes crits par Swift durant la mme anne qu' </>Tub</I> et d'autres textes de 1697.  Les corrlations ont t converties en cote Z et on a observ les diffrences.  </P>    <P>Ces rsultats permettent, selon Laffal, de faire trois constats: en ce qui concerne les concepts traits, (1) <I>Gulliver</I> est plus semblable aux textes qui lui sont contemporains (1725) qu' <I>Tub</I> et aux autres textes de 1697; (2) <I>Tub</I> est lgrement plus semblable aux autres textes de 1697 (qui lui sont contemporains) qu' <I>Gulliver</I>, mais la diffrence est peu significative; (3) il n'y a pas de diffrence entre la corrlation de <I>Tub</I> avec les autres textes de 1697 et celle de <I>Gulliver</I> avec les autres textes de 1725.  Ces rsultats suggrent donc, toujours selon Laffal, que les concepts utiliss par Swift n'ont pas chang entre 1697 (lorsqu'il a crit <I>Tub</I>) et 1725 (alors qu'il a crit <I>Gulliver</I>), mais que les concepts spcifiques  <I>Gulliver</I> diffrent de ceux qui sont spcifiques  Tub et aux autres textes de la mme poque.  De plus, en comparant les profils de <I>Tub</I> et <I>Gulliver</I>  ceux de textes contemporains produits par d'autres auteurs, Laffal a trouv que <I>Gulliver</I> prsente une plus grande corrlation que <I>Tub</I> avec d'autres textes du dbut du 18e sicle.  Il affirme:<BR>  <CITE>This finding affirms that Gulliver represents a unique departure in Swift's use of concepts rather than overall shift in his concepts between the 1690s and the 1720s.  (...)  (It( also suggests that Gulliver is atypical with respect to contemporary 18th century writings</CITE> (<A HREF="#Laffal1995">Laffal, 1995, p.346</A>).  </P>    <P>Pour mettre tous ces rsultats en contexte, il faut cependant en faire une valuation qualitative, en observant la frquence des concepts trouvs pour chaque texte.  Laffal a donc regard quels concepts sont plus traits dans <I>Gulliver</I> que dans <I>Tub</I> et les autres textes du 18e et vice-versa.  Il a aussi compar les concepts utiliss par Swift par rapport  ceux utiliss par les autres auteurs de l'poque pour voir en quoi Swift se distingue de ses contemporains.  Il a fait des regroupements de concepts (par exemple, un incluant les concepts relis  la culture, la religion, le langage et l'ducation) et des oppositions (concepts  consonnance ngative vs positive).  Il a trouv notamment que (1) Swift a moins abord les valeurs ngatives (le mal, le crime, la destruction, la mort, la maladie, etc.) que ses contemporains tandis qu'il faisait plus rfrence aux valeurs positives; (2) il tait plus attentif que ses contemporains  ce qui est matriel et au commerce et moins  l'ducation et  la culture, ce qui reflterait, selon Laffal, son intrt pragmatique pour la vie quotidienne.  </P>    <H3><A name="3.2">3.2</A>  Dterminer la paternit d'un texte</H3>    <P>Les mthodes informatiques de comparaison entre diffrents textes ou diffrents auteurs peuvent permettre de dterminer la paternit d'une oeuvre (i.e. son auteur) (<A HREF="#Holmes1994">Holmes, 1994</A>; <A HREF="#Lowe1995">Lowe et Matthews, 1995</A>; <A HREF="#Elliott1996">Elliot et Valenza, 1996</A>).  On peut aussi, quand on connat l'auteur, dterminer la priode de sa vie durant laquelle il a crit un texte (Holmes, 1994; Johnson, 1996b).  Une tude statistique voulant dterminer la paternit d'un texte implique des comparaisons du texte en question avec des oeuvres des auteurs possibles en utilisant les tests statistiques appropris qui analyseront les caractristiques quantifiables des textes, caractristiques rfltant le "style" de l'criture, comme cela a t expliqu prcdemment.  Il s'agit de dterminer si le texte voque plus le style de l'auteur A ou de l'auteur B.  </P>    <P>Bailey a propos, en 1979, trois rgles pour dfinir les circonstances ncessaires  la dtermination de la paternit d'un texte:<BR>  <CITE>(i) the number of putative authors should constitute a well-defined set; (ii) the lengths of the writings should be sufficient to reflect the linguistic habits of the author of the disputed text and also those of each of the candidates; (iii) the texts used for comparison should be commensurate with the disputed writing </CITE>(<A HREF="#Holmes1994">Holmes, 1994, p.87</A>, citant <A HREF="#Bailey1979">Bailey, 1979</A>).  </P>    <P>S'il y a un auteur pour lequel la question de la paternit se pose souvent, c'est bien William Shakespeare.  Plusieurs des oeuvres qui lui ont longtemps t attribues soulvent maintenant des dbats: Shakespeare en est-il bien l'auteur?  Des milliers de livres et d'articles ont t consacrs  ce sujet.  Deux chercheurs, Ward E.Y. Elliott et Robert J. Valenza (<A HREF="#Elliott1996">1996</A>), ont voulu tenter d'apporter des lments de rponses.  Ils ont fait passer une batterie de tests logiciels  des pices et pomes dont on est sr qu'ils sont de Shakespeare.  Suite  cette tape de validation des tests, ils en ont retenu 51 qu'ils ont fait passer aux textes dont la paternit est conteste.  Les analyses statistiques portaient sur des aspects comme les mots, les contractions, certains modles de phrases, les prfixes et suffixes, etc.  Ces tests ont cependant t critiqus par Donald W. Foster qui affirme que plusieurs sont imparfaits (<A HREF="#Foster1996">1996</A>).  </P>    <P>Parmi les oeuvre attribues  Shakespeare et dont la paternit fait l'objet d'un dbat, il y a les trois pices de thtre <I>The Two Noble Kinsmen</I>, <I>The Double Falsehood</I> et <I>The London Prodigal</I>.  Certains croient qu'elles ont t cocrites par Shakespeare et John Fletcher, alors que d'autres contestent cette hypothse.  Deux spcialistes, David Lowe et Robert Matthews (<A HREF="#Lowe1995">1995</A>), ont utilis le "Radial Basis Function Network" (RBF), une mthode du domaine de ce qu'on appelle en anglais le "neural network", pour accomplir la tche stylomtrique de dterminer l'auteur ou les auteurs de ce texte.  Le RBF est une mthode assez complexe que Lowe et Matthews dcrivent ainsi:<BR>  <CITE>although the original motivation of this particular network structure was in terms of functional approximation techniques, the network may be derived on the basis of statistical pattern processing theory, regression and regularisation, biological pattern formation, mapping in the presence of noisy data etc.</CITE> (<A HREF="#Lowe1995">1995, p.450</A>).  Cette mthode leur a permis de comparer le vocabulaire des pices mentionnes plus haut  celui d'un corpus de textes dont la paternit est indubitable (tant attribue soit  Fletcher soit  Shakespeare).  Les analyses qu'ils ont menes les ont amens  dire que <I>The Double Falsehood</I> et <I>The London Prodigal</I> devraient tre prioritairement attribues  Fletcher.  Le cas de <I>The Two Noble Kinsmen</I> est diffrent.  Cette pice a longtemps t considre comme une vritable collaboration entre les deux auteurs.  Selon l'tude de Lowe et Matthews, chaque acte de la pice porte les marques des deux auteurs - et a donc pu avoir t crit en collaboration - mais avec une prdominance tantt de l'un tantt de l'autre.  </P>    <H3><A name="3.3">3.3</A>  Distinguer les imitations des oeuvres authentiques</H3>    <P>Comme on l'utilise pour dterminer la paternit d'un texte, l'analyse de textes littraires assiste par ordinateur  pourrait tre utilise pour distinguer une imitation d'une oeuvre authentique, pour identifier le plagiat (<A HREF="#Johnson1996b">Johnson, 1996b</A>).  Sans ordinateur, cette tche peut tre assez difficile  accomplir, puisqu'une imitation se veut d'un style identique aux oeuvres authentiques d'un auteur donn.    </P>  <P>Le pastiche est une oeuvre qui se veut une imitation du style d'un auteur donn.  Il ne faut pas le confondre avec la parodie qui est plus caricaturale.  Le pastiche est donc une forme d'imitation, mais non dissimule; il ne s'agit pas de plagiat.  Le roman policier, fantastique ou de science-fiction sont des genres qui font assez frquemment l'objet de pastiches.  L'oeuvre de l'crivain amricain Raymond Chandler n'y a pas chapp.  </P>    <P>Lee Sigelman et William Jacoby (<A HREF="#Sigelman1996">1996</A>) ont utilis les outils de l'analyse statistique pour valuer la distinction entre les pastiches de son style et ses oeuvres originales.  Ils se sont donc bass sur des lments stylistiques pour faire ressortir les faiblesses des imitateurs.  Ils ont d'abord "mesur" le style de Chandler pour ensuite le comparer aux styles des diffrents pastiches.  Toutefois, ils n'ont pas voulu s'attarder aux petits dtails, mais plutt  ce qu'ils considrent comme les principales caractristiques du style de l'auteur.  Ils ont utilis l'ordinateur pour analyser quatre caractristiques:<BR>  <OL>  <LI>la simplicit du vocabulaire (mesures utilises: le degr de lisibilit, i.e. le nombre de syllabes par mot et de mots par phrase; l'usage d'un vocabulaire "de base", i.e. selon une liste de 850 mots permettant d'exprimer toute pense);  </LI>  <LI>l'action (mesures: le ratio entre les adjectifs et les verbes; le ratio entre les mots relis  la violence et la criminalit et ceux relis  la contemplation et la rflexion);  </LI>  <LI>les dialogues (mesures: la densit, i.e. le nombre de mots qui font partie de dialogues divis par le nombre total de mots; la frquence; la longueur);  </LI>  <LI>le langage des personnages (mesures: la frquence relative des mots d'argot (selon une liste prdtermine); la frquence des comparaisons; la frquence relative des mots considrs comme vulgaires ou obscnes; la frquence relative des conjonctions de coordination.  </LI>  </OL>  Ces analyses ont permis  Sigelman et Jacoby de remarquer une certaine constance dans le style de Chandler.  Ils ont compar leurs rsultats avec les pastiches et ont ainsi pu voir les similitudes et diffrences (dont certaines sont presque systmatiques).  </P>    <H3><A name="3.4">3.4</A>  L'tude des motifs rythmiques dans les vers</H3>    <P>L'analyse par ordinateur des mots et des syllabes peut contribuer  l'tude du rythme dans les vers de pomes ou de pices de thtre.  C'est ce que Sharon Diane Nell (1993) a fait.  </P>    <P>La plupart des textes de pices de thtre du XVIIe sicle franais sont composs d'alexandrins - des vers de douze syllabes.  Les alexandrins classiques comportent toujours une csure, c'est--dire un repos entre la sixime et la septime syllabe.  Elle marque la cadence du vers en le sparant en deux hmistiches composs de six syllabes chacun.  </P>    <P>Pour faire son analyse, Nell part de <I>Thorie du vers de Benot</I> de Cornulier.  Cornulier a remarqu que certains types de mots ou de syllabes ne paraissent pas de part et d'autre de la csure, c'est--dire en sixime ou septime position, dans certaines circonstances.  Il les a regroups selon cinq "critres" nomms <EM>masculin</EM>, <EM>proclitique</EM>, <EM>enclitique</EM>, <EM>prpositionnel</EM> et <EM>fminin</EM><A HREF="note5"><SUP>5</SUP></A>.  Il ne peut pas y avoir d'accent sur ces mots ou syllabes.  Or, comme en franais l'accent est mis sur la dernire syllabe d'une phrase, ces mots ne peuvent pas tre placs  la fin de l'une des hmistiches d'un alexandrin.  Autrement dit, ils ne peuvent pas se trouver en sixime ni en douzime position.  Dans la langue franaise, les mots ou syllabes susceptibles d'tre accentus sont les conjonctions, les adjectifs, verbes ou adverbes monosyllabes, et la dernire syllabe d'un mot qui en compte plus d'une.  Ces observations amnent Nell  tirer cette conclusion: "in addition to the metrical division of the alexandrine line into two <EM>hmistiches</EM> of six syllables each, these two halves of the same line may be subject to further subdivision" (<A HREF="#Nell1993">1993, p.187</A>).  Ce sont les divisions non mtriques, c'est--dire les syllabes pouvant tre accentues et se trouvant ailleurs qu'en sixime ou douzime position, qui crent le rythme dans un alexandrin.  Par opposition, les divisions mtriques sont celles qui se trouvent en sixime ou douzime position.  </P>    <P>Nell a utilis la thorie des critres de Cornulier et la technologie informatique pour faire une analyse comparative des pices <I>Polyeucte</I> de Pierre Corneille, <I>Phdre</I> de Jean Racine et <I>Le Tartuffe</I> de Molire, toutes trois tires du rpertoire thtral franais du 17e sicle.  L'objectif de son tude tait formul ainsi:<BR>  <CITE>to determine if there were any constant qualities between the plays or if there seemed to be stylistic differences, indicated by a wide variation in the use of the internal rythmic patterns, for example, between the three playwrights, or if the occurrence of these patterns displayed similarities in all three works</CITE> (<A HREF="#Nell1993">Nell, 1993, p.190</A>).  </P>    <P>Nell a utilis le tableur <I>Excel</I> de Microsoft pour effectuer son analyse.  Elle a cr quatre documents dans <I>Excel</I>: (1) un contenant les sections d'alexandrins (elle a choisi d'tudier les hmistiches sparment plutt qu'en alexandrins) codifis selon les critres de Cornulier; (2) un autre contenant les 42 combinaisons de critres possibles; (3) un modle pour la compilation statistique; (4) une feuille de macros qui assurait l'automatisation et la communication entre les autres documents.  </P>    <P>Nell a collect quatre types d'informations: (1) la frquence globale des IRP (pour <EM>Internal rhythmic pattern</EM>) dans les trois pices; (2) les diffrents types d'IRP prsents dans chaque scne; (3) les pourcentages globaux des types d'IRP dans les trois pices; (4) le comportement des IRP hexasyllabes dans les trois pices.  Elle a pu voir, par exemple, que les motifs (IRP) les plus frquents sont les mmes dans les trois pices.  Elle a trac des portraits graphiques de chaque pice en calculant la frquence de chaque longueur de motifs (monosyllabes, bisyllabes, etc.) dans chaque scne.  La longueur d'un motif correspond  la distance en syllabes entre deux syllabes accentues.  </P>    <H4><A name="3.5">3.5</A>  Marques d'un auteur dans l'volution du langage</H4>    <P>Selon Dennis Taylor (<A HREF="#Taylor1993">1993</A>), l'ordinateur permet de rpondre  la question: comment un auteur donn contribue-t-il  l'volution du langage?  Il est possible de comprendre l'influence d'un auteur en faisant la corrlation entre son vocabulaire et ses expressions, d'une part, et des dictionnaires informatiss, d'autre part, pour ensuite produire le profil et l'historique de l'entre de certains mots dans la langue.  De grands auteurs ont invent de nouvelles faons de dire les choses, ont modifi le langage et certaines de ces inventions et modifications font maintenant partie intgrante du langage courant.  Il peut s'agir de nouveaux mots ou encore de nouvelles faons d'employer d'anciens mots.  Auparavant, il n'y avait pas d'outils pour faire des liens entre les oeuvres littraires et l'tat du langage.  Cela tait donc un problme pour les littraires de trouver comment mesurer l'originalit et la crativit des grands auteurs et, par la mme occasion, leur participation  l'volution du langage.  </P>    <P>Pour ce faire, il faut trouver une faon de mesurer "les moments-cls du langage littraire, ces moments o le langage viole une norme et constitue une dviation ou, mieux, une variation et un dveloppement" (traduction de l'auteure)<A HREF="#note6"><SUP>6</SUP></A> (<A HREF="#Taylor1993">Taylor, 1993, p.342</A>).  Il faut comparer l'oeuvre avec des dictionnaires informatiss qui lui sont contemporains (pour voir comment l'oeuvre se distingue des normes de l'poque  laquelle elle a t produite) et des dictionnaires plus "tardifs" (pour voir quels aspects du langage de l'oeuvre ont t incorpors au langage).  Il faut aussi se servir de grammaires et autres sources galement informatises afin de faire ressortir les changements dans la faon d'employer les mots.  "Our ultimate task is to computerize all dictionaries and all texts, and then conduct a study of what changes in the language correspond to what sources" (<A HREF="#Taylor1993">Taylor, 1993, p.343</A>).   l'aide des dictionnaires et d'autres oeuvres antrieures au texte tudi, il est aussi possible de reprer les changements de collocations, c'est--dire qui concernent la position d'un mot par rapport  d'autres, la proximit des lments entre eux.  Selon Taylor, les nouveauts de collocation marquent les points de transition du langage, l o les changements s'oprent.  L'informatique peut aider  reprer ces lieux.  </P>    <H2><A name="4">4.</A> Complmentarit homme-machine</H2>    <P>Les exemples d'applications de l'analyse de textes littraires assiste par ordinateur exposs prcdemment montrent que l'informatique permet au chercheur d'aller plus loin.  Les logiciels font des tches qui seraient longues et laborieuses, voire impossibles, pour l'humain seul.  L'ordinateur est objectif.  Il examine le texte entier sans que son attention ne soit davantage attire sur un passage en particulier.  Il n'est pas sujet aux distractions, pas plus qu'aux ides prconues (<A HREF="#Fortier1995">Fortier, 1995</A>).  Une analyse statistique par ordinateur bien faite peut redonner des bases plus fermes  un dbat qui, jusque-l, se perdait en conjectures (<A HREF="#Burrows1994">Burrows et Craig, 1994</A>).  Elle peut faire ressortir des aspects d'une oeuvre qui sont difficilement visibles  l'oeil nu.  L'ordinateur est donc avant tout un acclrateur et un facilitateur (<A HREF="#Olsen1993">Olsen, 1993</A>).  </P>    <P>Toutefois, le plus volu des logiciels ne peut videmment pas, seul, produire une analyse significative d'un texte littraire.  Toute statistique a besoin d'une interprtation humaine pour prendre son sens.  L'ordinateur fournit les donnes brutes qui seront ensuite soumises  la capacit d'analyse de l'expert (<A HREF="#Fortier1995">Fortier, 1995</A>).  L'intervention humaine est aussi ncessaire avant celle de la machine, ne serait-ce que pour numriser les oeuvres, dictionnaires et autres documents ncessaires  l'analyse.  Aprs la numrisation, il faut aussi corriger les erreurs de transcriptions.  Le chercheur doit aussi bien souvent prparer les donnes  tre analyses pas l'ordinateur.  Dans le cas des analyses de concepts dcrites plus haut, par exemple, c'est au chercheur de dterminer les concepts, leur structure et leurs liens avec les diffrents mots.  </P>    <P>Pour l'analyse des oeuvres de Jonathan Swift, Laffal a aussi traduit les mots des oeuvres qui taient dans d'autres langues que l'anglais et il a remplac les noms propres par <EM>name</EM> ou <EM>place</EM>, selon ce qu'ils dsignaient.  Les mots dont l'ortographe a chang depuis la rdaction de ces textes ont t rcrits selon l'ortographe moderne.  De plus, le chercheur a d intervenir durant l'analyse pour contrer les problmes de polysmie.  Pour ce faire, il a employ deux logiciels:  <CITE>one reads the text to be analysed and marks all words wich have more than one meaning in the dictionary.  A second program advances through the marked text, stopping at each marked word with a display of numbered dictionary choices.  The human editor selects the proper meaning by keying the pertinent number </CITE>(<A HREF="#Laffal1995">Laffal, 1995, p.342</A>).  </P>    <P>L'informatique peut tre employe pour analyser des donnes tires d'oeuvres littraires plutt que sur les textes eux-mmes.  Mais alors, il faut une implication humaine plus grande, il faut collecter les donnes, les organiser, les traiter, etc. avant l'intervention de la machine.  Le travail du chercheur prcdant l'analyse par ordinateur devient plus important encore.  Beverley Ormerod, Jean-Marie Volet et Hlne Jaccomard (<A HREF="#Ormerod1995">1995</A>) se sont servis de logiciels informatiques pour tudier les personnages fminins dans la littrature africaine francophone.  Il s'agissait en fait d'une comparaison entre les personnages fminins chez les auteurs masculins et chez les auteurs fminins.  Les chercheurs s'attendaient  trouver les rsultats suivants: (1) que les personnages masculins soient beaucoup plus nombreux, autant dans les oeuvres des auteurs fminins que dans celles d'auteurs masculins; (2) que, chez les auteurs fminins, il y aurait une discrimination positive en faveur des personnages fminins "in terms of female characters' mere presence in a novel and in terms of their power, attitude and importance" (<A HREF="#Ormerod1995">1995, p.355</A>).  </P>    <P>Ils ont tabli un corpus de dix romans crits par des hommes et dix par des femmes.  Les donnes soumises  l'examen de l'ordinateur taient constitues d'une liste exhaustive des personnages de ces vingt romans auxquels on a accord trois notes de 1  5 (selon des critres prtablis), l'une correspondant  leur importance, une autre  leur pouvoir et la dernire  leur attitude dans le roman.  C'est  ce niveau que se situait la plus grande part de l'intervention humaine avant le traitement des donnes par ordinateur.  Les chercheurs ont ensuite fait ressortir la diffrence entre les textes d'auteurs masculins et ceux d'auteurs fminins.  </P>    <P>Quant aux profils, graphiques, tableaux, etc. rsultants des diverses analyses, ils ne sont pas eux-mmes des interprtations des oeuvres littraires.  Ils servent plutt de base aux tudes menes par les chercheurs.  Dans tous les exemples mentionns jusqu'ici, les chercheurs ont eu  interprter les rsultats fournis par les diffrents logiciels utiliss.  </P>    <H2><A name="5">5.</A> Critiques et limites de l'analyse de textes par ordinateur</H2>    <P>L'analyse de textes littraires assiste par ordinateur a bien sr ses dtracteurs.  Les gens qui pratiquent ce type d'analyse ne sont gnralement pas ceux que l'on considre comme des spcialistes de la littrature.  Il y a bien, parmi les experts du domaine, quelques professeurs de littrature  l'universit.  Mais on trouve surtout des "non littraires": des spcialistes en mathmatiques, en physique, en informatique, en psychologie, voire en science politique, etc.  Les littraires qui n'utilisent pas l'informatique dans leurs travaux, eux, mettent souvent en doute cette faon d'tudier la littrature et ne semblent pas s'y intresser outre mesure.  <CITE>The conclusions of most individual CARL (computer-assisted research on literature( projects have simply been too trivial or too obvious to attract attention.  A second reason put forward for the marginalization of CARL is the rebarbative presentation of its research</CITE> (<A HREF="#Finch1995">Finch, 1995, p.511</A>).  </P>    <P>Alison M. Finch parle aussi d'une "mythologisation" des mthodes d'analyse statistiques par les experts eux-mmes.   <CITE>Some surprising figures of speech infiltrate the critical diction of many CARL analysts - figures of speech that tend to mythologize their own entreprises. (...) It may have stopped CARL experts evaluating properly the results of their own research, and it cannot but be off-putting the non-CARL critics they are trying to win over</CITE> (<A HREF="#Finch1995">1995, p.512</A>).  </P>    <P>Pour certains experts de l'analyse de textes littraires par ordinateur, Olsen en tte (<A HREF="#Olsen1993">1993</A>), l'informatique a bien des choses  offrir  la littrature, mais elle est souvent mal utilise et n'a pas l'impact qu'elle devrait avoir sur le champ des tudes littraires.  Olsen croit qu'il est ncessaire de rvaluer le rle de l'informatique dans l'analyse de la littrature et d'aller dans de nouvelles directions.  Il cite Rosanne Potter qui affirme que les spcialistes utilisant l'informatique en littrature ont trop souvent tendance  rendre leurs rapports trs "techniques", ce qui n'aide pas  s'adjoindre un lectorat de littraires.  Potter remarque galement que ce type d'tudes se limitent la plupart du temps  un petit nombre d'oeuvres (<A HREF="#Olsen1993">Olsen, 1993</A>, citant <A HREF="#Potter1989">Potter, 1989</A>).  </P>    <P>Selon Mark Olsen, les erreurs commises par les experts de l'analyse de textes par ordinateur ne sont pas d'ordre technique, mais plutt thoriques et mthodologiques (<A HREF="#Olsen1993">1993</A>).  Il soulve aussi que les analyses de textes littraires par ordinateur sont gnralement faites sur la base d'lments simples comme la longueur des mots et les ratios "type-token", alors que ces mesures donnent des rsultats peu satisfaisants en eux-mmes, selon lui.  C'est aussi l'avis de David D. Miall: "The frequencies of words, collocations, or particular stylistic features, tell us rather little about the literary qualities of a text, since these aspects of a text find their meaning only within the larger and constantly shifting context constituted by the reading process" (1995, p.202).  </P>    <P>Le problme, c'est qu'il n'est pas vident de transformer des qualits textuelles en statistiques.  Paul A. Fortier soulve que, bien que les textes soient composs de mots, leurs effets sont produits par des phnomnes d'un ordre suprieur et plus complexe (<A HREF="#Fortier1995">1995</A>).  De plus, aucun algorithme informatique connu ne peut saisir si un mot donn est employ au sens figur ou littraire (<A HREF="#Miall1995">Miall, 1995</A>).  Pour ce faire, il faudrait d'abord que le chercheur fasse un travail d'encodage, tche norme et fastidieuse.  Selon Miall, prdire une nouvelle re o un ordinateur serait capable de comprendre une oeuvre littraire, c'est sous-estimer la complexit du processus de lecture d'un texte.  Lire un pome ou un roman est un processus de transformation probablement encore plus complexe que dans le cas d'autres types de textes.  </P>    <P>Par contre, il est convenu que les donnes issues d'analyses par ordinateur puissent tre utiles pour des analyses plus pousses.  Mark Oslen ajoute:  <CITE>It would seem that the approach of using computers to analyze the linguistic and symbolic environment - the collective and social elements of language - in order to understand individual texts and rhetorical stances, suggests that computer analysis of text should play a central and well defined role in our understanding of text</CITE> (<A HREF="#Olsen1993">1993, p.313</A>).  </P>    <P>De plus, il est vident que, si certains aspects des textes littraires sont quantifiables, d'autres ne pourront jamais l'tre (<A HREF="#Burrows1994">Burrows et Craig, 1994</A>).  </P>    <P>tienne Brunet, de son ct, soulve les dangers de l'obstination statistique.  Lorsqu'un chercheur veut, par exemple, dterminer la paternit d'un texte, il avance d'abord une hypothse puis soumet le texte  des tests.  S'il n'arrive pas aux rsultats escompts et qu'il ne veut pas que ses efforts soient vains, il risque de s'acharner et d'interprter les rsultats de faon  leur faire dire ce qui lui convient le mieux.  C'est que, pour Brunet, diffrentes personnes peuvent faire dire diffrentes choses aux statistiques.  On a tendance  donner aux chiffres une supriorit presque divine sur les mots parce qu'ils semblent absolus; "but this apparent incontrovertibility, however impressive, often conceals relative and contingent procedures that have nothing essential about them", crit-il (<A HREF="#Brunet1991">Brunet, 1991, p.70</A>).   </P>    <H2><A name="conclu">Conclusion</A></H2>    <P>L'ordinateur permet aux chercheurs qui s'intressent  la littrature d'ajouter un aspect quantitatif  leurs analyses.   l'aide de diffrents logiciels, les spcialistes peuvent obtenir des tableaux, des graphiques, des statistiques sur les mots qui composent les oeuvres qu'ils tudient, de mme que sur les syllabes, les signes de ponctuation, le vocabulaire, les thmes et champs lexicaux, etc.  Ces rsultats peuvent ensuite tre utiliss pour comparer des auteurs ou des textes entre eux.  Ils peuvent notamment aider le chercheur  dterminer la paternit d'un texte,  distinguer les imitations des oeuvres authentiques,  comprendre les motifs rythmiques dans des vers ou encore  saisir comment un auteur donn a contribu  l'volution du langage.  Mais l'informatique n'est qu'un outil, il fournit une assistance au chercheur qui doit intervenir <EM>avant</EM> et <EM>aprs</EM> l'analyse automatise.  L'analyse de textes littraires assiste par ordinateur ne fait pas l'unanimit et les experts doivent composer avec les limites de cette mthode.  </P>    <P>L'analyse de textes littraires par ordinateur est marginalise par les littraires.  La plupart d'entre eux ne croient pas que l'informatique puisse leur apporter une aide relle dans leurs travaux et ne semblent pas avoir la curiosit de dcouvrir les possibilits de cet outil.  Il faut dire qu'une bonne partie des crits dans le domaine de l'analyse de textes par ordinateur sont assez techniques et quelquefois rbarbatifs pour qui n'est pas trs familier avec les statistiques et l'informatique.  D'un autre ct, les experts en analyse de textes littraires assiste par ordinateur ne font pas toujours un usage trs pertinent des outils informatiques.  Bien des tudes se limitent  l'analyse d'aspects trs simples comme la longueur des mots et des phrases, la frquence de certains mots, etc.  En eux-mmes,  les rsultats de telles analyses ne sont pas trs intressants d'un point de vue strictement littraire.  Par contre,  ils peuvent tre pratiques lorsqu'utiliss pour fins de comparaison;  la condition, bien sr, que la comparaison soit pertinente, que son auteur ait un objectif prcis.  </P>    <P>Il est certainement souhaitable que littraires et experts en analyse de textes par ordinateur - qu'ils soient informaticiens, mathmaticiens ou autres - s'associent, qu'ils joignent leurs connaissances et leurs spcialits pour arriver  faire un usage pertinent des outils informatiques en tudes littraires.  Il faut faire en sorte d'attirer les spcialistes de la littrature vers ce domaine et mettre  leur disposition des outils de qualit qui leur apporteront un soutien concret dans leurs travaux.  </P>    <P>Toutefois, tant que le processus cognitif de la lecture ne sera pas mieux compris, les chercheurs ne pourront faire qu'un usage assez limit de l'informatique.  Et ce n'est certainement pas demain le jour o l'ordinateur pourra saisir le sens de vers comme ceux-ci, tirs du pome "C'tait un bon copain" de Robert Desnos: <BR>  <BR>  <CITE>  Il avait le coeur sur la main<BR>  Et la cervelle dans la lune<BR>  (...)<BR>  Il avait l'estomac dans les talons<BR>  (...)<BR>  Il avait la tte  l'envers<BR>  Et le feu l o vous pensez<BR>  (...)<BR>  Quand il prenait ses jambes  son cou<BR>  Il mettait son nez partout<BR>  (...)<BR>  Il avait une dent contre tienne<BR>  (...)<BR>  Il n'avait pas sa langue dans la poche<BR>  (...)   </CITE>  (<A HREF="#Desnos1930">1930, p.86</A>).</P>    <P>Le cerveau humain est en mesure de saisir le sens cach derrire des expressions, de faire des associations d'ides, de crer et d'interprter des mtaphores, et mme de trouver des significations nouvelles aux mots qui composent le vocabulaire courant.  Jamais un ordinateur, mme arm du logiciel le plus volu qui soit, ne pourra rivaliser d'intelligence et de perspicacit avec un auteur ou un lecteur humain.  </P>    <H2><A NAME="biblio">Bibliographie</A></H2>    <P><A NAME="Bailey1979">Bailey</A>, R. W. "Authorship Attribution in a Forenstic Setting". <I>Advances in Computer-aided Literary and Linguistic Research</I>, D.E Ager et al (d.), Birmingham: AMLC, 1979.  </P>  <P><A NAME="Brunet1991">Brunet</A>, tienne. "What Do Statistics Tell Us?".<I> Research in Humanities Computing</I>, n1 (1991): 70-92.  </P>  <P><A NAME="Burrows1994">Burrows</A>, J. F. ; Craig, D. H. "Lyrical Drama and the "Turbid Mountebanks": Styles of Dialogue in Romantic and Renaissance Tragedy". <I>Computers and the Humanities</I> 28 (1994): 63-86.  </P>  <P><A NAME="Desnos1930">Desnos</A>, Robert. <I>Corps et biens</I>, Paris: Gallimard, 1930.  </P>  <P><A NAME="Elliott1996">Elliott</A>, Ward E. Y. ; Valenza, Robert J. "And Then There Were None: Winnowing the Shakespeare Claimants". <I>Computers and the Humanities</I> 30, n3 (1996): 191-245.  </P>  <P><A NAME="Finch1995">Finch</A>, Alison M. "The Imagery of a Myth: Computer-Assisted Research on Literature". <I>Style</I> 29, n4 (1995): 511-521.  </P>  <P><A NAME="Fortier1995">Fortier</A>, Paul A. "Categories, Theory, and Words in Literary Texts". <I>Research in Humanities Computing</I>, n5 (1995): 91-109.  </P>  <P><A NAME="Foster1996">Foster</A>, Donald W. "Response to Elliot and Valenza, "And Then Were None"". <I>Computers and the Humanities</I> 30, n3 (1996): 247-255.  </P>  <P><A NAME="Holmes1994">Holmes</A>, David, I. "Autorship Attribution". <I>Computers and the Humanities</I> 28 (1994): 87-106.  </P>  <P><A NAME="Johnson1996a">Johnson</A>, Eric. "The Kinds of Words used in the Novels of Jane Austen, Charles Dickens, and James Janke". <I>Text Technology</I> 6, n2 (t 1996a): 91-96.  </P>  <P><A NAME="Johnson1996b">Johnson</A>, Eric. "The World Wide Web, Computers, and Teaching Literature". 1996b.<BR>  <A HREF="http://www.triton.dsu.edu/tlwc/articles/webprof.html">http://www.triton.dsu.edu/tlwc/articles/webprof.html</A>  </P>  <P><A NAME="Laffal1995">Laffal</A>, Julius. "A Concept Analysis of Jonathan Swift's A Tale of a Tub and Gulliver's Travels". <I>Computers and the Humanities</I> 29 (1995): 339-361.  </P>  <P><A NAME="Lowe1995">Lowe</A>, David ; Matthews, Robert. "Shakespeare Vs. Fletcher: A Stylometric Analysis by Radial Basis Functions". <I>Computers and the Humanities</I> 29 (1995): 449-461.  </P>  <P><A NAME="Miall1995">Miall</A>, David D. "Representing and Interpreting Literature by Computer". <I>The Yearbook of English Studies: Non-Standard Englishes and the New Media</I> Special Number 25 (1995): 99-212.  </P>  <P><A NAME="Nell1993">Nell</A>, Sharon Diane. "Toward a Theory of Rythm in French Poetry: Computer Assisted Recognition of Rythmic Groups in Traditional Isometrical Alexandrines". <I>Computers and the Humanities</I> 27 (1993): 185-223.  </P>  <P><A NAME="Olsen1993">Olsen</A>, Mark. "Signs, Symbols and Discourses: A New Direction for Computer-aided Literature Studies". <I>Computers and the Humanities</I> 27, n5-6 (1993): 309-314.<BR>  <A HREF="http://tuna.uchicago.edu/homes/mark/Signs.html">http://tuna.uchicago.edu/homes/mark/Signs.html</A>  </P>  <P><A NAME="Ormerod1995">Ormerod</A>, Beverly ; Volet, Jean-Marc ; Jaccomard, Hlne. "The Female Voice and Traditional Discourse Biases: The Case of Francophone African Literature". <I>Computers and the Humanities</I> 28 (1995): 353-367.  </P>  <P><A NAME="Potter1989">Potter</A>, Rosane. <I>Literary Computing and Literary Criticism: Theoretical and Practical essays on Theme and Rhetoric</I>. Philadelphie, 1989.  </P>  <P><A NAME="Sigelman1995">Sigelman</A>, Lee. "By Their (New) Words Shall Ye Know Them: Edith Wharton, Marion Mainwaring, and The Buccaneers".<I> Computers and the Humanities</I> 29 (1995) 271-283.  </P>  <P><A NAME="Sigelman1996">Sigelman</A>, Lee ; Jacoby, William. "The Not-So-Simple Art of Imitation: Pastiche, Literary Style, and Raymond Chandler".<I> Computers and the Humanities</I> 30, n1 (1996): 11-28.  </P>  <P><A NAME="Taylor1993">Taylor</A>, Dennis. "Literary Texts and the State of the Language: The Role of the Computer". <I>Computers and the Humanities</I> 27 (1993): 341-347.  </P>    <P><H2>Notes</H2></P>      <P><A name="note1"><SUP>1</SUP></A> Ces logiciels sont souvent faits sur mesure pour l'analyse particulire que le chercheur dsire faire.  Il y a donc presque autant de logiciels que de types d'analyses.  </P>    <P><A name="note2"><SUP>2</SUP></A> Toutes les analyses de Brunet ont t faites grce  la base de donnes FRANTEXT contenant 3,000 textes littraires intgraux et qui permet d'excuter simplement divers types d'analyses statistiques.  </P>    <P><A name="note3"><SUP>3</SUP></A> David I. Holmes le dcrit ainsi:   <CITE>"If N = the number of units (word occurences) wich form the sample text (tokens), and V = the number of lexical units wich form the vocabulary in the sample (types),  then the type-token ratio is defined by R = V/N" </CITE>(Holmes, 1994, p.92).  </P>    <P><A name="note4"><SUP>4</SUP></A> <CITE>"I have taken as my guide the more obvious characters of the ideas for wich expressions were to be tabulated, arranging them under such classes and categories as reflection and experience has taught me would conduct the inquirer most readily and quickly to the object of his search"</CITE> (Roget cit par Laffal, 1995, p.342).  </P>    <DL>  <P><A name="note5"><SUP>5</SUP></A>   <DT>Masculin:</DT><DD> <CITE>"Se dit d'un mot qui, s'appuyant sur le mot suivant avec lequel il forme une unit phontique, est dpourvu d'accent tonique"</CITE> (Le Nouveau petit Robert 1), ie les articles, les pronoms personnels relatifs, les prpositions monosyllabiques;</DD>  <DT>Proclitique:</DT><DD> Toutes les syllabes sauf la dernire d'un mot multisyllabe,  moins qu'une ou plusieurs de ces syllabes soient des "e" muets (Nell, 1993);</DD>  <DT>Enclitique:</DT><DD> <CITE>"Mot qui prend appui sur le mot prcdent et forme avec lui une seule unit accentuelle"</CITE> (Le Nouveau petit Robert 1), ex: "ce" dans "qu'est-ce?";</DD>  <DT>Prpositionnel:</DT><DD> Une prposition est un <CITE>"mot grammatical, invariable, introduisant un complment (d'un substantif, d'un verbe, d'un adjectif, d'un adverbe) en marquant le rapport qui unit ce complment au mot complt"</CITE> (Le Nouveau petit Robert 1), ex: , aprs, avec, jusque, outre, par, sauf, etc.;</DD>  <DT>Fminin:</DT><DD> "e" muet se trouvant entre deux consonnes (Nell, 1993).</DD>  </P></DL>    <P><A name="note6"><SUP>6</SUP></A><CITE> "The key moments in literary language, those moments where the language violates a standard norm and constitues a deviation or, better, variation and development.  Some of these deviations eventually become very influential and indeed become part of the standard language wich is then again subject to variation"</CITE> (Taylor, 1993, p.342).   </P>     <BR>    <HR>    <P>L'analyse de textes littraires assiste par ordinateur: une introduction    <P>Cours : BLT 6271, Recherche en analyse documentaire.<BR>    Professeur : Madame Michle Hudon    <BR><BR>    <HR>    <ADDRESS>Retour  la <A HREF="#matieres">Table des matires</A> -- Page    d'accueil de <A HREF="matv4no1.htm">Cursus</A> -- Page d'accueil de l'<A    HREF="/index.html">EBSI</A> </ADDRESS>    <HR>    <BR><BR><BR><BR>    </BODY>    </HTML>    
