** Recup url : http://www.lirmm.fr/~lafourca/ML-pool/These%20Castro/euriware%20d2 ࡱ; cR FԥCompObj\WordDocumentObjectPoolcKcK \ !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[^] _`abdefghijklmSummaryInformation( mathieu lafourcade'@t@v@ @Microsoft Word 6.0.149ࡱ;  FDocument Microsoft Word 6.0NB6WWord.Document.6; Oh+'05Pk q } !(+)&%&$.0(&*&%#! <Sihir:Applications:Microsoft Office:Microsoft Word 6:NormalQRsolution dambiguts smantiques et dellipses par lutilisation dontologiesmathieu lafourcadeܥhS eHU44222VlVVVVlVvvvvvvvvlnnnnnn&X2v`bvvvvv22vvvvvv2v2vlFT 22vlvvDsambigusation par lutilisation dontologiesProposition de recherche en vu dun financement de thse CIFRE pour Emmanuel CASTROMathieu LAFOURCADE, Jean SALLANTIN, Emmanuel CASTROLIRMM, 161 rue Ada, 34392 Montpellier Cedex 5, France {mathieu.lafourcade, jean.sallantin, emmanuel.castro}@lirmm.frNous cherchons faire cooprer des systmes danalyses linguistiques et des systmes de gestion dontologies. Il sagit ici dintgrer les informations issues dontologies dans le processus danalyse dun document en langue naturelle (texte crit ou parole). Il sagit par exemple, dassocier un sens correct dans le cas dhomonymies, ou de reconstituer des informations implicites ou bruites. Nous prsentons ci-dessous deux domaines dapplication.Indexation automatique de documents REX.Dans une base REX, lanalyse dun nouveau texte en vue de son indexation consiste en la recherche de mots-cls correspondant aux termes de lontologie de la base. Cette mthode founit de trs bons rsultats pour des ontologies o lambigut lexicale est restreinte. Les risques dhomonymie augmente avec lintgration de plusieurs domaines. Il est alors indispensable de possder des outils permettant de lever ces ambiguts, automatiquement ou avec laide de lutilisateur.Par exemple, lors de lindexation de documents provenant dInternet, il est souhaitable de pouvoir diffrencier le mot surf dans des documents portant par exemple sur le surf (wave-riding), le surf des neiges (snow-board), et le surf sur Internet (web-surfing). Il en est de mme pour java : le langage de programmation, la danse, ou la pause-caf des amricains. Il est ainsi possible de dterminer a posteriori le ou les domaines ontologiques du documents. On peut, a contrario, fixer le domaine ontologique dun document afin de lambigut lors de lindexation.Reconstruction dentres bruites CSTARLe projet CSTAR vse linterprtation automatique de conversations tlphoniques. Le domaine est reduit celui des rservations htellires. Ici, le document est une suite de tours de parole entre plusieurs intervenants. Les tours de parole sont fortement anaphoriques, agrammaticaux et potentiellement bruits. La non-reconnaissance de certains mots (ou groupe de mots) impose leur reconstitution laide des onci aux termes deux-chambres, deux-personnes, ou deux-nuits (ici il y a ellipse du mots nuit). Lambigut peut tre rsolue si on sait que : dans le contexte de la conversation (cest dire avec les informations accumules dans les tours de paroles prcdents, et spcialement le dernier (h1)) la discussion porte sur le nombre de nuits (combien, nuit) ; donc le Deux porte sur le terme deux-nuits.c3 : Mme principe que pour (c2), mais ici le Deux porte sur le terme deux-chambres.Approche ProposeNous nous proposons de construire un outil associant aux mots dun texte ou dun dialogue, les termes dun ensemble dontologies, que ce texte soit analys grammaticalement ou non.Cet outil devra avant tout lever les ambiguts lexicales et syntaxique. Cet outil pourra galement servir reconstruire des phrases incompltes partir des information infres partir lontologie. Il pourra aussi tre utiliser pour lindexation de documents.Lide principale est de construire phrase aprs phrase un contexte, comprenant une description de ce sur quoi porte le texte jusqu un endroit donn. Cette description est faites des termes des ontologies disponibles dans loutil. Lors de lanalyse de chaque nouvelle phrase, les mots-cls seront relevs. Diffrents termes de lontologie seront associables au mot-cl. Un systme simple de contraintes permettra dliminer les termes incompatibles avec le contexte, et de retenir le terme le plus cohrent avec le contextes.Contexte de travailCette tude aura lieu au LIRMM (J.Sallantin) en collaboration avec Euriware (L.Bouchet et D.Merceron). Nous nous baserons principalement sur les travaux sur les ontologies, les contraintes et sur lapprentissage dvelopps au LIRMM, et sur les outils quils ont produits (WebContract), ainsi que les outils de gestion de documents dEuriware (Matisse/REX). Nous nous baserons aussi les comptences du LIRMM en traitement automatique de la langue naturelle (M. Lafourcade).Les rsultats de cette tude pourront bien videmment tre intgr dans les outils de gestion et dindexation de document dEuriware (REX).|.Avvh h h h h h h h h........ܥe- *+$$)).).).)B)B)B)B)B)B)R)B)h)3*3*3*3*3*3*3*3*3*3*3*3*3*3*3*3*T**.)3*3*3*3*3**3*.).)3*3*3*3*3*.)3*.)3*3*Rsolution dambiguts smantiques et dellipses par lutilisation dontologies(Proposition de recherche en vu dun financement de thse CIFRE)Emmanuel Castro, castro@lirmm.frLIRMM, 161 rue Ada, 34392 Montpellier Cedex 5, FranceProblmesNous cherchons identifier les concepts pouvant se rattacher aux mots dun texte. Le problme gnral est, dans le cas dhomonymes se reportant des termes dontologie diffrents, de trouver quel est le bon terme associer un mot. Prsentons maintenant le problme dans deux domaines dapplication : lindexation automatique de document et la reconstruction de phrases incompltes.REX : Indexation automatique de documentsJusqu prsent dans une base REX, lanalyse des nouveaux textes entrer dans la base consistait en la recherche de mots-cls correspondant aux termes de lontologie de la base. Cette mthode fonctionne avec de trs bons rsultats quand la base est restreinte un domaine particulier o les homonymes sont rares, voire inexistants, car systmatiquement supprims par les personnes travaillant sur le domaine. Lorsquon doit intgrer, dans une base, des donnes provenant de plusieurs domaines diffrents, les risques dambiguts sont invitables. Il est alors indispensable de possder des outils permettant de grer et de lever ces ambiguts.Exemple dambigut :Lors de lindexation de document provenant dInternet, il est souhaitable de pouvoir diffrencier le mot surf dans des documents portant par exemple sur le surf (wave-riding), le surf des neiges (snow-board), et le surf sur Internet (web-surfing).Il en est de mme pour java : le langage de programmation, la danse, ou la pause-caf des amricains.C-Star : Reconstruction de phrases incompltesLe projet C-Star propose de traduire automatiquement des conversations tlphonique portant sur un domaine particulier : l'htellerie. Ici le texte nest pas une suite continue de phrases, mais une suite de tours de parole dont l'metteur est alternativement chacune des deux parties en prsence dans le dialogue. Les phrases contenues dans chaque tour de parole sont trs souvent incompltes, comme le sont souvent les phrases issue dun dialogue. Elles comportent souvent des ellipses qui provoques des ambiguts smantiques. L aussi il y besoin doutils permettant de grer et de lever les ambiguts pour pouvoir produire des traductions correctes.Exemple de tours de parole :c1- Bonjour monsieur, vous avez des chambres (?)h1- Oui, combien de nuits resterez-vous ?c2- Deux.h2- Combien de chambres voulez-vous ?c3- Deux.c1 : vous avez peut tre associ soit au terme disponibilit-affirmation, soit au terme disponibilit-question. Lambigut peut tre rsolue si on sait que : priori le client na pas dinformation sur la disponibilit, l'htelier a ce genre dinformation ; donc (il est trs fortement probable que) cest une question du client lhtelier.c2 : Deux se rapporte une quantit il peut tre associ aux termes deux-chambres, deux-personnes, ou deux-nuits (ici il y a ellipse du mots nuit). Lambigut peut tre rsolue si on sait que : dans le contexte de la conversation (cest dire avec les informations accumules dans les tours de paroles prcdents, et spcialement le dernier (h1)) la discussion porte sur le nombre de nuit (combien, nuit) ; donc le Deux porte sur le terme deux-nuits.c3 : Mme principe que pour (c2), mais ici le Deux porte sur le terme deux-chambres.Approche ProposeNous nous proposons de construire un outil associant aux mots (ou lexme) dun texte ou dun dialogue, les termes dun ensemble dontologies, que ce texte soit analys grammaticalement ou non. Cet outil devra avant tout lever les ambiguts (dcrites dans le 1).Cet outils pourra servir reconstruire des phrases incompltes partir des information infres partir lontologie. Il pourra aussi servir indexer les textes dun systme de gestion de documents.Lide principale est de construire phrase aprs phrase un contexte de lecture, comprenant une description de ce sur quoi porte le texte jusqu un endroit donn. Cette description est faites des termes des ontologies disponibles dans loutil. Lors de lanalyse de chaque nouvelle phrase, les mots-cls seront relevs. Diffrents termes de lontologie seront associables au mot-cl. Un systme simple de contraintes permettra dliminer les termes incompatibles avec le contexte, et de retenir le terme le plus cohrent avec le contextes.Contexte de travailCette tude aura lieu au LIRMM (J.Sallantin) en collaboration avec Euriware (L. Bouchet et D.Merceron). Nous nous baserons principalement sur les travaux sur les ontologies, les contraintes et sur lapprentissage dvelopps au LIRMM, et sur les outils quils ont produits (WebContract), ainsi que les outils de gestion de documents dEuriware (Matisse / REX). Nous utiliserons aussi les comptences du LIRMM sur les problmes de traitement automatique de la langue naturelle (M. Lafourcade).Les rsultats de cette tude pourront bien videmment tre intgr dans les outils de gestion et dindexation de document dEuriware (REX).Consortium for Speech Translation Advanced ResearchIl nest pas toujours possible dobtenir dinformation concernant lintonation pour savoir si cest une question ou une affirmation.A|.A|.h h h h h h h h h........PQ(1;=      + 8 Q U _ { | ~ #E^nNVv{7Z #9>Daeuz+,-;<hua V]Uc_<BCNOWX`ahuU Qv(> : _ | qK 4 4 .M 4 4hMhMh>> oE+`LM 4 4hKx 4K 4M 4UK@Normal*@*Titre 1] ch@hTitre 2Kh 4hxx] cj@jTitre 3K 4 .xxU]c*>@*Titre>h] c$8O8Tour de paroleKK]cnOnNote de bas de pageEL 4]c4O4Texte par dfautMx]c@O@Retrait premire ligneNx]c4O4Texte tableauOclOlNumrotation planEPh 4h.]cjOj Liste numroKQh 4h.cdO"dPuce 2KRh 4hvcdO2dPuce 1KSh 4hc,OB, Texte simpleTc 5< Times New Roman Symbol ArialHumanst521 Lt BTHumanst521 Cn BTGaramond5Courier NewMonotype SortsWingdings&Arial BlackMS Sans Serif"%&%& Manutologies.c1 Bonjour Monsieur, vous avez des chambres ?h1 Bien sr, combien de xxxx resterez-vous ?c2 Deux.h2 Combien en voulez-vous ?c3 Deux.c1 : En parole, la prosodie dnote linterrogation mais la structure grammaticale corresond une affirmation. vous avez peut donc tre associ soit au terme disponibilit-affirmation, soit au terme disponibilit-question. Lambigut peut tre rsolue laide de lotologie: a priori le client na pas dinformation sur la disponibilit, l'htelier dispose de ce genre dinformation ; donc (il est trs fortement probable que) cest une question du client lhtelier.h1: xxxx correspond vraisemblablement des termes comme nuits, jours ou temps. On remarquera que daprs la suite du dialogue, le terme temps na pu tre retenu. Lontologie est en mesure de dterminer quil sagit dune dure partir de rester et combien. Les units de temps pertinente dans ce cas pour cette ontologie sont le jour ou la nuit.c2 : Deux est une quantit. Il peut tre assoLe segment DeuxBibliographiexxxx resterez-vousen voulez-vousinformation. Is fortement probable quil sagitdeOPo$%/#<NOghps)*5?sw    ! k 67`apqvw   " > H I M    6 8 9 < = E R f g a VIbg o q t }  :Scytgmqx,QRT[]amq6: /.@KXxzFGHuVIVIa0/0m 7a 9 g q uFGH !#()7[<#T<#<#<#<#,<#<#<#,<#<#<#<#<#<#<#<#<#<#<#,<#<#<#<#,<#)K@Normal&`&Titre 1xxU]cb@bTitre 2Dhxx 4hU]cj@jTitre 3K 4 .xxU]cA@Police par dfautbobTexte par dfaut? ( 4],>`,Titre signatairePP]lolTour de paroleL K( 4]nO"nNote de bas de pageE 4]c@O2@Retrait premire lignex]c4OB4Texte tableauclOlNumrotation planEh 4h.]cjObj Liste numroKh 4h.cdOrdPuce 2Kh 4hvcdOdPuce 1Kh 4hc,O, Texte simplec"o"Titre 0UcHHH8!  Hg `aHbmathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcad !"#'(678KZ[iVIIR FsCompObj\WordDocumenttObjectPoolcKcK !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[|pruvwxyz{ }~SummaryInformation( mathieu lafourcade'@t@v@VF@Microsoft Word 6.0.148ࡱ;  FDocument Microsoft Word 6.0NB6WWord.Document.6; Oh+'05Pk q } !(+)&%&$.0(&*&%#! <Sihir:Applications:Microsoft Office:Microsoft Word 6:NormalQRsolution dambiguts smantiques et dellipses par lutilisation dontologiesmathieu lafourcadeܥhS eHU44222VlVVVVlVvvvvvvvvlnnnnnn&X2v`bvvvvv22vvvvvv2v2vlFT 22vlvvDsambigusation par lutilisation dontologiesProposition de recherche en vu dun financement de thse CIFRE pour Emmanuel CASTROMathieu LAFOURCADE, Jean SALLANTIN, Emmanuel CASTROLIRMM, 161 rue Ada, 34392 Montpellier Cedex 5, France {mathieu.lafourcade, jean.sallantin, emmanuel.castro}@lirmm.frNous cherchons faire cooprer des systmes danalyses linguistiques et des systmes de gestion dontologies. Il sagit ici dintgrer les informations issues dontologies dans le processus danalyse dun document en langue naturelle (texte crit ou parole). Il sagit par exemple, dassocier un sens correct dans le cas dhomonymies, ou de reconstituer des informations implicites ou bruites. Nous prsentons ci-dessous deux domaines dapplication.Indexation automatique de documents REX.Dans une base REX, lanalyse dun nouveau texte en vue de son indexation consiste en la recherche de mots-cls correspondant aux termes de lontologie de la base. Cette mthode founit de trs bons rsultats pour des ontologies o lambigut lexicale est restreinte. Les risques dhomonymie augmente avec lintgration de plusieurs domaines. Il est alors indispensable de possder des outils permettant de lever ces ambiguts, automatiquement ou avec laide de lutilisateur.Par exemple, lors de lindexation de documents provenant dInternet, il est souhaitable de pouvoir diffrencier le mot surf dans des documents portant par exemple sur le surf (wave-riding), le surf des neiges (snow-board), et le surf sur Internet (web-surfing). Il en est de mme pour java : le langage de programmation, la danse, ou la pause-caf des amricains. Il est ainsi possible de dterminer a posteriori le ou les domaines ontologiques du documents. On peut, a contrario, fixer le domaine ontologique dun document afin de lambigut lors de lindexation.Reconstruction dentres bruites CSTARLe projet CSTAR vse linterprtation automatique de conversations tlphoniques. Le domaine est reduit celui des rservations htellires. Ici, le document est une suite de tours de parole entre plusieurs intervenants. Les tours de parole sont fortement anaphoriques, agrammaticaux et potentiellement bruits. La non-reconnaissance de certains mots (ou groupe de mots) impose leur reconstitution laide des ontologies.c1 Bonjour Monsieur, vous avez des chambres ?h1 Bien sr, combien de xxxx resterez-vous ?c2 Deux.h2 Combien en voulez-vous ?c3 Deux.c1 : En parole, la prosodie dnote linterrogation mais la structure grammaticale corresond une affirmation. vous avez peut donc tre associ soit au terme disponibilit-affirmation, soit au terme disponibilit-question. Lambigut peut tre rsolue laide de lotologie: a priori le client na pas dinformation sur la disponibilit, l'htelier dispose de ce genre dinformation ; donc (il est trs fortement probable que) cest une question du client lhtelier.h1: xxxx correspond vraisemblablement des termes comme nuits, jours ou temps. On remarquera que daprs la suite du dialogue, le terme temps na pu tre retenu. Lontologie est en mesure de dterminer quil sagit dune dure partir de rester et combien. Les units de temps pertinente dans ce cas pour cette ontologie sont le jour ou la nuit.c2 : Deux est une quantit. Il peut tre assoLe segment DeuxBibliographiexxxx resterez-vousen voulez-vousinformation. Is fortement probable quil sagitdeOPo$%/#<NOghps)*5?sw    ! k 67`apqvw   " > H I M    6 8 9 < = E R f g a VIbg o q t }  :Scytgmqx,QRT[]amq6: /.@KXxzFGHuVIVIa0/0m 7a 9 g q uFGH !#()7[<#T<#<#<#<#,<#<#<#,<#<#<#<#<#<#<#<#<#<#<#,<#<#<#<#,<#(K@Normal&`&Titre 1xxU]cb@bTitre 2Dhxx 4hU]cj@jTitre 3K 4 .xxU]cA@Police par dfautbobTexte par dfaut? ( 4],>`,Titre signatairePP]lolTour de paroleL K( 4]nO"nNote de bas de pageE 4]c@O2@Retrait premire lignex]c4OB4Texte tableauclOlNumrotation planEh 4h.]cjObj Liste numroKh 4h.cdOrdPuce 2Kh 4hvcdOdPuce 1Kh 4hc,O, Texte simplec"o"Titre 0UcHHH8!  Hg `aHbmathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcad !"#'(678KZ[iVIIWWH8!  W001 n8b : r FTW<#T<#<#<#<#,<#<#<#,<#<#<#<#<#<#<#<#,<#<#,<#<#<#,g `afbmathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2@OOONNO7 8 S f ~  ( 1 H M R S T U vwESTUVWN77 8e K  ['iOP!s#(FGMTimes New Roman Symbol MArialMCentury Schoolbook GaramondTimesMonotype SortsWingdings"]%f%f0PRWWH8!  W001 n8b : r FTW<#T<#<#<#<#<#,<#<#<#,<#<#<#<#<#<#<#<#,<#<#,<#<#<#,g `afbmathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2mathieu lafourcadeSihir:These Castro:euriware d2@OOONNO7 8 S f ~  ( 1 H M R S T U vwESTUVWN77 8e K  ['iOP!s#(FGMTimes New Roman Symbol MArialMCentury Schoolbook GaramondTimesMonotype SortsWingdings"]%f%f1 PRsolution dambiguts smantiques et dellipses par lutilisation dontologiesmathieu lafourcademathieu lafourcadeO!s#(FGMTimes New Roman Symbol MArialMCentury Schoolbook GaramondTimesMonotype SortsWingdings"]%f%f.PRsolution dambiguts smantiques et dellipses par lutilisolution dambiguts smantiques et dellipses par lutilisation dontologiesmathieu lafourcademathieu lafourcade