<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN"> <HTML><HEAD><TITLE>Fiche de description d'une soutenance de thse</TITLE> <LINK REV=MADE HREF="mailto:webmaster-atala@biomath.jussieu.fr"> <META NAME="copyright" CONTENT="copyright 1999 PZ et ATALA"> </HEAD><BODY BGCOLOR="#ffffff"> <H1>Fiche de description d'une soutenance de thse</H1> <HR> <CENTER><TABLE><TR><TD BGCOLOR="green"><TABLE BORDER="5"><TR><TD BGCOLOR="white"><h2 align="center">Les rseaux collocationnels dans la construction et l'exploitation d'un corpus dans le cadre d'une communaut de discours scientifique</h2>  <h4 align='center'><em>Collocational networks in the construction and exploitation of a corpus within the framework of a scientific discourse community</em></h4>  <h2 align="center">Geoffrey Williams</h2> <h3 align=center>(<a href="mailto:Geoffrey.Williams@univ-ubs.fr">Geoffrey.Williams@univ-ubs.fr</a>)</h3>  <hr> <h2>Contenu</h2>  <table><tr><th valign=top>Mots cls : </th><td>Corpus, Collocation, balisage TEI, Communaut de Discours, Lexicographie computationnelle, Linguistique de corpus</td></tr></table>  <table><tr><th valign=top>Keywords: </th><td><em>Corpus, collocation, TEI markup, Discourse community, Computational lexicography, corpus linguistics</em></td></tr></table>    <h3>Rsum</h3> <blockquote> <p>Les corpus sont de plus en plus utiliss dans la lexicographie, en particulier pour les dictionnaires  utilisation pdagogique. Bien que de nombreuses tudes bases sur des corpus spcialiss aient t entreprises, les rsultats sont obrs par la difficult  dfinir clairement la reprsentativit de tels corpus. Les Communauts de Discours (C.D.) dfinies par Swales offrent un modle intressant puisqu'elles sont dfinies par rapport  leurs membres. Au lieu de faire appel  la notion abstraite de "reprsentativit", le contenu peut tre justifi comme tant "reprsentatif" d'une communaut dfinissable. </p> <p>Pour exploiter un corpus, il est ncessaire de le baliser en SGML afin de retenir les lments importants de l'aspect physique des textes publis et de souligner les lments  analyser. Notre corpus a t balis suivant les recommandations de la TEI. L'interprtation du balisage est propose comme norme minimale pour le balisage de ce genre de corpus. </p> <p>L'tude exploite surtout la notion distributionnelle de collocation comme facteur de cohrence textuelle. Les diffrentes thories actuelles de collocation sont illustres avant de dvelopper une dfinition plus textuelle des collocations et d'introduire les rseaux de collocations. La mesure statistique d'information mutuelle est employe pour extraire les rseaux d'un corpus sous-divis par thme. Dans un corpus balis selon la TEI, la balise <RS> sert de pivot pour l'utilisation de collocations dans le dveloppement de critres de slection internes. L'hypothse est qu'en regroupant certains lments lexicaux par leur balisage, les thmes majeurs d'un corpus peuvent tre isols par la collocation et la thorie des indices de polysmie de Clear. Des rseaux de collocation sont extraits des sous-corpus afin d'illustrer les thmes majeurs de la communaut de discours et les disciplines concernes. </p>  </blockquote>  <h3>Abstract</h3><blockquote><em><p>Corpora have become increasingly used in lexicography, in particular for general purpose pedagogical lexicography. Whilst numerous studies of specialised corpora have been undertaken, the results are hampered by the difficulty of defining representativity in such a corpus. The Discourse Community as defined by John Swales is adopted as a suitable corpus model since the field is defined by its members. Selection of texts is carried out following set criteria in conjunction with members of the community rather than by arbitrary statistical methods. In this way, rather than appealing to the illusive notion of 'representativity', the content can be justified as being 'representative' of a definable community. </p> <p>This corpus is annotated following the Text Encoding Initiative guidelines, each text is regarded as an individual entity rather than a constituent of a corpus which explains the use of the TEI as opposed to the Corpus Encoding Standard. The mark-up interpretation is given as a minimal standard for this type of corpus. </p> <p>The phenomenon of collocation is discussed as a powerful tool in textual coherence The different prevalent theories of collocation are introduced with examples from the BIVEG corpus before moving to a more textual definition of collocation developing the theory of collocational networks. The statistical measure of mutual information is used in the extraction of networks from the thematically subdivided corpus. The <RS> tag is central to the use of collocation in the development of internal selection criteria. The premise is that in grouping certain lexical elements by tagging, the major themes of a corpus can be isolated by collocation and the adaptation of Clear's clue theory for polysemy. Networks of collocation are then extracted from subset to reflect the major themes of both the discourse community and the contributing disciplines. </p> <p>The ultimate outcome will be an electronic specialised pedagogical dictionary, the corpus is built exclusively from the genre to be demonstrated in the dictionary, the scientific research article. </p>  </em></blockquote>    <hr> <h2>Informations administratives</h2>  <h3>Jury</h3> <blockquote> Pierre Arnaud, Lyon II, Prsident et rapporteur.<br> Hlne Huot, Paris VII, Rapporteur.<br> Peter Roe, Aston, UK, Rapporteur.<br> Batrice Daille, Nantes, Examinateur,<br> Patrick Thalouarn, Nantes, Examinateur  </blockquote>   <table> <tr><th align="left">Universit : </th><td>Universit de Nantes</td></tr> <tr><th align="left">Discipline : </th><td>Anglais : linguistique de corpus</td></tr> <tr><th align="left">Date de soutenance : </th><td>10/12/1999</td></tr> <tr><th align="left">Lieu de soutenance : </th><td>IUP Chimie-Biologie, Universit de Nantes</td></tr> </table> <p>    <hr> <address><font size="-2"> Ces renseignements ont t saisis le 12/11/2000 par Geoffrey Clive Williams (<a href="mailto:geoffrey.williams@wanadoo.fr">geoffrey.williams@wanadoo.fr</a>). <br>  <br> Informations valides le 13/11/2000. </font></address> </TD></TR></TABLE></TD></TR> <TR><TD ALIGN="right"><FONT SIZE="-2" COLOR="blue"><EM>these 1.1</EM></FONT></TD></TR></TABLE></CENTER> <FORM METHOD="POST" ACTION="http://www.biomath.jussieu.fr/cgi-bin/Formulaire" ENCTYPE="application/x-www-form-urlencoded">  <HR> <P><FONT SIZE="-2"><EM>Vous pouvez proposer de  <INPUT TYPE="radio" NAME="de" VALUE="init_revision">mettre  jour cette fiche  <INPUT TYPE="radio" NAME="de" VALUE="init_copie">crer une nouvelle fiche en copiant et modifiant celle-ci  <INPUT TYPE="submit" NAME="bouton_saisie_auteur" VALUE="Envoyer" TARGET="_top"> <BR> Cette proposition sera examine par le responsable de cette rubrique avant publication.</EM></FONT></P> <INPUT TYPE="hidden" NAME="fiche" VALUE="these"> <INPUT TYPE="hidden" NAME="IdSession" VALUE="20001112_10h3558_025683"> <INPUT TYPE="hidden" NAME=".cgifields" VALUE="de"> </FORM> <HR> <FONT SIZE="-2">Page gnre par  <EM>Formulaire V1.23</EM></FONT></BODY></HTML> 
