<!doctype html public "-//w3c//dtd html 4.0 transitional//en"> <html> <head>    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">    <meta name="Author" content="Isabelle Tellier">    <meta name="GENERATOR" content="Mozilla/4.75 [en] (Win98; U) [Netscape]">    <title>projet MSH</title> </head> <body>  <center><b><font size=+2>Apprentissage naturel et artificiel</font></b> <br><b><font size=+2>de langages naturels et artificiels</font></b></center>  <p><br> <br> <br> <br> <br> <br> <p><b>Equipes concern&eacute;es :</b> <br>Grappa (informatique, Lille3) : Isabelle Tellier, Marc Tommasi, Fran&ccedil;ois Denis, Aur&eacute;lien Lemay <br>Cersat&egrave;s (Lille3) : Widad Mustafa (linguiste) <br>Silex (linguistique, Lille3) : Georgette Dal <br>Ureca (psychologie, Lille3) : Isabelle Bonnotte (&agrave; confirmer) <br>ATILF (linguistique, Nancy) : Fiammetta Namer (&agrave; confirmer) <br>INRIA (informatique) : Jean-Yves Marion, J&eacute;r&ocirc;me. Besombes (Nancy), Roberto Bonato, Francois Coste, Annie Foret, Yannick Le Nir, Jacques Nicolas (Rennes) <br>IRIN (informatique, Nantes) : Christian R&eacute;tor&eacute;, Erwan Moreau <br>Sarbruken (Allemagne, informatique linguistique) : Joachim Niehren <br>Iasi (Roumanie, informatique) : Dani&eacute;la Dudau <p><b>1. Th&egrave;me g&eacute;n&eacute;ral</b> <br>Lacquisition dune langue (en particulier de la langue maternelle) constitue une phase de d&eacute;veloppement fondamentale et universelle chez tous les enfants humains. L&eacute;tude de ce ph&eacute;nom&egrave;ne est pourtant particuli&egrave;rement difficile, &agrave; cause dune part de la complexit&eacute; intrins&egrave;que des langues naturelles (dont la linguistique a mis &agrave; jour diff&eacute;rents niveaux dorganisation, fondamentalement intriqu&eacute;s les uns dans les autres : phonologique, morphologique, syntaxique, s&eacute;mantique, pragmatique...) et dautre part des liens &eacute;troits qui relient les comp&eacute;tences langagi&egrave;res &agrave; dautres comp&eacute;tences cognitives plus g&eacute;n&eacute;rales (comme la perception, la cat&eacute;gorisation, le raisonnement...). Cet apprentissage est dautant plus remarquable quil se fait tr&egrave;s majoritairement sans le&ccedil;ons explicites, sur la seule base dexemples extraits naturellement par les enfants de leur environnement quotidien (et donc aussi en absence de contre-exemples). <br>Ce champ a donn&eacute; lieu &agrave; de nombreuses &eacute;tudes, alliant la psychologie du d&eacute;veloppement et la linguistique. Ont ainsi &eacute;t&eacute; notamment mises en lumi&egrave;re la chronologie des acquisitions, les erreurs surmont&eacute;es et les phases critiques pendant lesquelles elles interviennent g&eacute;n&eacute;ralement. Diff&eacute;rents parcours dapprentissage ont ainsi pu &ecirc;tre mis en &eacute;vidence, correspondant sans doute &agrave; des strat&eacute;gies diff&eacute;rentes mises en uvre de la part des apprenants. <br>Les fondements neurologiques et psycholinguistiques qui rendent ce processus dacquisition possible font toutefois encore lobjet de vives controverses. Le d&eacute;bat sest ainsi cristallis&eacute; il y a quelque temps autour des positions inn&eacute;istes adopt&eacute;es par Noam Chomsky (voir son d&eacute;bat avec Jean Piaget) ou plus r&eacute;cemment par un de ses h&eacute;ritiers Steven Pinker. <p><b>2. R&ocirc;le de linformatique</b> <br>Depuis quelques ann&eacute;es, des informaticiens interviennent aussi dans ce d&eacute;bat et une nouvelle probl&eacute;matique de recherche &eacute;merge &agrave; lintersection du <i>traitement automatique du langage naturel</i> (ou TALN) et de <i>lapprentissage automatique</i>, quon pourrait appeler &laquo; apprentissage automatique du langage naturel &raquo;. Elle emprunte au TALN la description de certains niveaux dorganisation linguistique par des <i>mod&egrave;les explicites </i>(grammaires formelles, outils de repr&eacute;sentation des connaissances...). Elle emprunte au domaine de lapprentissage automatique la caract&eacute;risation de la notion d<i>apprenabilit&eacute;</i> par des crit&egrave;res formels, ainsi que la d&eacute;finition et l&eacute;valuation dalgorithmes qui &laquo; apprennent &raquo;, cest-&agrave;-dire qui am&eacute;liorent leurs performances au fur et &agrave; mesure de leur utilisation. Les chercheurs impliqu&eacute;s dans ce programme tentent donc de rendre compte par des arguments th&eacute;oriques et exp&eacute;rimentaux de l<i>apprenabilit&eacute;</i> de <i>mod&egrave;les</i> des diff&eacute;rents niveaux danalyse du langage et proposent pour cela diff&eacute;rents types d<i>algorithmes</i> (symboliques, statistiques, connexionnistes...) qui <i>simulent</i> lapprentissage dinstances de ces mod&egrave;les, &agrave; partir de donn&eacute;es dentr&eacute;es aussi proches que possible de celles auxquelles sont confront&eacute;s les enfants (par exemple : en sinterdisant lusage de contre-exemples). Ce programme de recherche se heurte encore &agrave; de nombreux &eacute;cueils. <br>Dun c&ocirc;t&eacute;, en effet, les mod&egrave;les de la langue sur lesquels travaillent les chercheurs en TALN se sont affin&eacute;s au cours des ans, pour tenter de se rapprocher de plus en plus des descriptions linguistiques. Mais aucun dentre eux nest encore capable de rendre compte de la majorit&eacute; des faits de langues observ&eacute;s par les linguistes. De plus, &agrave; notre connaissance, quasiment aucune recherche relevant du TALN ne sest attach&eacute;e &agrave; d&eacute;crire les &eacute;tats successifs des connaissances linguistiques dun enfant en phase dacquisition de sa langue maternelle. <br>Dun autre c&ocirc;t&eacute;, le domaine de lapprentissage automatique a &eacute;norm&eacute;ment progress&eacute; ces derni&egrave;res ann&eacute;es : la <i>fouille de textes</i> et l<i>extraction dinformations &agrave; partir de textes</i> sont ainsi des disciplines r&eacute;centes en plein essor qui mettent en uvre des techniques dapprentissage automatique sur des corpus de donn&eacute;es textuelles. Mais les algorithmes les plus performants utilis&eacute;s dans ce contexte sont encore ceux qui exploitent les propri&eacute;t&eacute;s statistiques &eacute;l&eacute;mentaires des textes, en n&eacute;gligeant les mod&egrave;les linguistiques sous-jacents. De plus, les strat&eacute;gies dapprentissage que ces algorithmes exploitent sont la plupart du temps compl&egrave;tement d&eacute;connect&eacute;es des observations de la psychologie. <br>Introduire linformatique dans un domaine de recherche engage dans une d&eacute;marche de mod&eacute;lisation rigoureuse, dexplicitation. Pour le th&egrave;me choisi, cette exigence porterait donc &agrave; la fois sur les mod&egrave;les linguistiques et sur les strat&eacute;gies dapprentissage des apprenants. Lapport attendu en contrepartie est de rendre possibles des validations th&eacute;oriques et exp&eacute;rimentales &agrave; grande &eacute;chelle - impensables en milieu naturel - dhypoth&egrave;ses psycholinguistiques. En retour, la linguistique et la psychologie peuvent &ecirc;tre pour les informaticiens une source de donn&eacute;es et dheuristiques qui am&eacute;liorent les performances de m&eacute;thodes plus traditionnelles, et pourraient renouveler indirectement les champs du TALN ou de la fouille de textes. <p><i>Lobjectif de ce projet est de confronter la culture de linguistes, de psychologues et dinformaticiens en vue de mettre &agrave; jour des mod&egrave;les linguistiques et des strat&eacute;gies dapprentissage de la langue qui satisfassent les contraintes et les observations de chaque communaut&eacute;.</i> <p><b>3. Programme et m&eacute;thodologie de recherche</b> <br>Le th&egrave;me propos&eacute; est &eacute;videmment tr&egrave;s vaste. Il importe de se fixer des objectifs &agrave; court et moyen termes plus cibl&eacute;s et de pr&eacute;ciser les moyens envisag&eacute;s pour y parvenir. <br>Tout dabord, on ne peut pas envisager d&eacute;tudier les m&eacute;canismes dapprentissage mis en uvre &agrave; tous les niveaux de lanalyse linguistique. Les comp&eacute;tences des participants au projet invitent &agrave; se focaliser sur : <br>&middot;&nbsp; le niveau morphologique (Silex); <br>&middot;&nbsp; le niveau syntaxique (Grappa) ; <br>&middot;&nbsp; le niveau s&eacute;mantique, incluant la s&eacute;mantique lexicale (Cersates) et la s&eacute;mantique de la proposition (Grappa). <br>Ainsi, par exemple, le traitement du signal acoustique, qui donne lieu &agrave; des analyses phon&eacute;tiques et phonologiques, ne sera pas abord&eacute;. Les niveaux de complexit&eacute; sup&eacute;rieurs (pragmatique, argumentation, structure du discours...) apparaissent, eux, comme des objectifs lointains. N&eacute;anmoins, il est important de signaler que les niveaux envisag&eacute;s ci-dessus ne sont pas con&ccedil;us comme autonomes et ind&eacute;pendants les uns des autres. Un des points cl&eacute;s que nous nous proposons d&eacute;tudier est pr&eacute;cis&eacute;ment <i>le r&ocirc;le de larticulation syntaxe/s&eacute;mantique dans le processus dapprentissage de la langue</i>. <br>De m&ecirc;me, la recherche sera men&eacute;e en parall&egrave;le sur les mod&egrave;les de la langue et sur les strat&eacute;gies dapprentissage, mais les deux d&eacute;marches sont con&ccedil;ues en interaction. Ainsi, les contraintes propres aux conditions dapprentissage naturelles (par exemple le fait quil ait lieu sans la donn&eacute;e explicite de contre-exemples) peuvent conditionner fortement les mod&egrave;les de la langues acceptables. De m&ecirc;me les mod&egrave;les linguistiques adopt&eacute;s devront &ecirc;tre compatibles avec les donn&eacute;es dobservation relev&eacute;es par les psychologues. <br>La mise en place concr&egrave;te de ce projet pluridisciplinaire ne sera possible qu&agrave; condition que les diff&eacute;rents participants puissent comparer leurs d&eacute;marches et leurs hypoth&egrave;ses sur des donn&eacute;es communes. Un des premiers objectifs que nous nous proposons sera donc la constitution dun <i>corpus de r&eacute;f&eacute;rence</i>, sur lequel diverses exp&eacute;riences pourront &ecirc;tre men&eacute;es et qui servira de corpus de validation aux divers efforts de mod&eacute;lisation. <br>Lobjectif &agrave; plus long terme qui nous guidera sera de passer de <i>mod&egrave;les compatibles</i> &agrave; un <i>mod&egrave;le commun</i>. <p><b>4. Environnement de travail</b> <br>Ce projet sinscrit dans le prolongement dactions d&eacute;j&agrave; en cours et sins&egrave;re naturellement dans lenvironnement r&eacute;gional, national et international : <br>&middot;&nbsp; 2i&egrave;me cycle sciences cognitives <br>Un deuxi&egrave;me cycle de sciences cognitives co-habilit&eacute; par les universit&eacute;s de Lille1 et Lille3 va ouvrir &agrave; la rentr&eacute;e de septembre 2001. Les enseignements de la maquette de cette formation (dont font partie les signataires lillois de ce projet) mettent explicitement en avant la pluridisciplinarit&eacute;. Seront ainsi notamment propos&eacute;es aux &eacute;tudiants des options qui associent soit linformatique et la linguistique, soit linformatique et la psychologie. <br>Un projet de cr&eacute;ation de DEA de sciences cognitives doit &ecirc;tre &eacute;galement d&eacute;pos&eacute;, et constituerait un prolongement naturel de ce 2i&egrave;me cycle. Il est essentiel que dans la perspective de ces formations nouvelles, des &eacute;quipes denseignants-chercheurs pluridisciplinaires se constituent pour former &agrave; la recherche les &eacute;tudiants qui en seront issus. <br>&middot;&nbsp; r&eacute;seau Cognisciences-Nord : <br>Les &eacute;quipes nordistes impliqu&eacute;es dans ce projet sont membres du r&eacute;seau Cognisciences-Nord. Dans le cadre de ce r&eacute;seau, un groupe de r&eacute;flexion sur la nature de lapprentissage intitul&eacute; "Mod&eacute;lisations de l'apprentissage", anim&eacute; par J.-C. Darcheville et F. Denis, a d&eacute;j&agrave; permis &agrave; des informaticiens et psychologues de confronter leurs probl&eacute;matiques, leurs id&eacute;es, leurs m&eacute;thodes. Ces r&eacute;unions pluridisciplinaires ont &eacute;t&eacute; fructueuses en ce qu'elles ont montr&eacute; ce qu'il y avait de commun dans les pratiques de nos deux communaut&eacute;s. Une th&egrave;se sur ce sujet intitul&eacute;e "Mod&egrave;les formels de l'apprentissage et cat&eacute;gorisation", a &eacute;t&eacute; soutenue en d&eacute;cembre 1999 par Jean Simon, devant un jury &eacute;galement compos&eacute; d'informaticiens et de psychologues. <br>&middot;&nbsp; projets nationaux et internationaux en cours impliquant les &eacute;quipes concern&eacute;es et dont la probl&eacute;matique a des liens avec celle pr&eacute;sent&eacute;e ici : <br>* Le Silex est engag&eacute; dans une ACI &laquo; jeunes chercheurs &raquo; nomm&eacute;e &laquo; Mortal : un analyseur morphologique pour le TAL &raquo; dont l'objectif est de constituer une base de donn&eacute;es constructionnelles pour le TAL, en collaboration avec le groupe &laquo; langage et cognition &raquo; du Limsi (Orsay), lERSS (Equipe de Recherche en Syntaxe et S&eacute;mantique, Toulouse) et le Landisco (Nancy). <br>* L&eacute;quipe Grappa est impliqu&eacute;e dans plusieurs projets : <br>- une Action de Recherche Coop&eacute;rative &laquo; Gracq &raquo; incluant deux &eacute;quipes de lINRIA situ&eacute;es &agrave; Rennes et Nancy et portant sur lapprentissage automatique de grammaires cat&eacute;gorielles (un formalisme syntaxique particulier) ; <br>- un projet de coop&eacute;ration franco-allemand &laquo; Procope &raquo; avec une &eacute;quipe dinformatique linguistique de Sarrebruck traitant de la r&eacute;solution de contraintes (m&eacute;thode informatique) et son application &agrave; la mod&eacute;lisation linguistique ; <br>- une th&egrave;se en cours financ&eacute;e par une bourse de cotutelle franco-roumaine en collaboration avec luniversit&eacute; de Iasi sur lapprentissage automatique de grammaires formelles en tenant compte de donn&eacute;es s&eacute;mantiques. <br>Ce projet pour la MSH constituerait le volet cognitif de ces actions qui sont plut&ocirc;t ax&eacute;es sur des d&eacute;veloppements informatiques. <br>&nbsp; <br>&nbsp; <br>&nbsp; <br>&nbsp; </body> </html> 
