15:30 Discussion
finale sur les méthodes mixtes en général
16:00 Fin
Rappel de l'appel à communications:
PRÉSENTATION DU CHAMP THÉMATIQUE
Cet atelier se veut
avant tout un espace de travail, de débat et d'échanges sur
un thème à la fois porteur et encore trop peu exploré. A ce
titre, les soumissions sous forme de prise de position,
argumentaire d'opinion, discussion de question ouverte,
défrichage de problématique, etc., sont particulièrement
encouragées.
Après des années de succès des méthodes quantitatives
(statistiques, apprentissage) en traitement automatique des
langues, on constate que les méthodes symboliques comme les
grammaires formelles ou la logique sont tout aussi indispensables
à certaines tâches de traitement automatique des langues.
Réciproquement, les méthodes formelles peinent à passer à
l’échelle sans que les probabilités viennent aider à lever les
ambiguïtés, à faire certains choix et à rendre compte des
préférences. L’analyse symbolique gagne aussi en rapidité à
s’aider d’informations statistiques. L’objet de cet atelier est
précisément de présenter des travaux actuels, sur l’analyse
syntaxique et sémantique du français, qui combinent nouvellement
méthodes symboliques et statistiques. Cet atelier sera aussi un
forum où discuter des mérites respectifs des méthodes statistiques
et symboliques et de leur enrichissement mutuel.
C'est pourquoi nous encourageons les exposés de prise de position,
surtout si elles s'appuient sur des questions particulières.
Nous donnons ci-après quelques exemples de travaux où ces
différents types de méthodes sont combinées.
• En recherche d’information, ne
pas traiter la négation et sa portée peut poser problème. S’il
s’agit de détecter des catastrophes naturelles, un tweet comme «
Il y a du vent, mais ce n’est pas un ouragan. » pourra être
erronément interprété comme une catastrophe naturelle alors qu’il
n’y en a pas
• Si on se pose la question : «
Geach était-il l’élève de Wittgenstein ? » il sera malaisé de
répondre. Hormis Wikipédia, il y a peu de textes sur Geach, et une
analyse profonde prenant en compte négation et anaphores est
requise pour inférer la réponse à partir de : « Bien
qu’il n’ait jamais suivi l’enseignement académique de ce dernier,
cependant il en éprouva fortement l’influence. »
• Après des années de traduction
automatique symbolique, la traduction automatique statistique,
basé sur des alignements bilingues, est devenue tellement efficace
qu’on en a oublié le triangle de Vauquois (analyse de la langue
source, langage pivot, génération dans la langue cible).
Néanmoins, l'utilisation simultanée de règles, par exemple
l'utilisation de grammaires d'arbres probabiliste ou l'utilisation
de statistiques dans l'analyse et la génération constituent des
directions actuelles et prometteuses.
• Dans une tâche de reconstruction
d’itinéraires à partir de récits de voyages la recherche
d’information peut permettre de trouver les paragraphes
pertinents, mais il faut ensuite une analyse syntaxique et
sémantique profonde pour inférer le chemin suivi à partir de
phrases comme : « Le chemin pavé de calcaire et de pierres
luisantes (...) serpente à travers fourrés de buis et de
noisetiers. Puis, cinq minutes nous conduisent à un petit pont
(...) qui nous porte sur la rive droite.»
• Les problèmes relatifs à la
gradience syntaxique, notamment l'association d'une structure
syntaxique cohérente à un énoncé non-canonique (shallow parsing,
robust parsing, forêt d'analyses partielles, correction
grammaticale, etc.), ou la pondération de contraintes
grammaticales, sont abordés tant par des approches quantitatives,
que par des approches symboliques. Les techniques d'approximation
qui sous-tendent ces deux approches sont de natures différentes,
et gagneraient à être combinées.
• Les grammaires syntaxiques (et
syntaxico-sémantiques) sont souvent acquises automatiquement à
partir de corpus annotés avec ou sans statistiques. Elles
comportent alors un grand nombre de catégories, d’arbres, de
graphes par mot. Il est donc quasi obligatoire de ne pas analyser
la phrase avec toutes les assignations possible de catégories,
mais seulement avec les plus probables dans le contexte de la
phrase. Le gain en complexité est flagrant, il peut être divisé
par quarante !
• La sémantique distributionnelle,
par vecteurs de mots issus de fréquences en corpus ou dans les
dictionnaires, permet de lever les ambiguïtés syntaxiques et
sémantiques de portées, de rattachement prépositionnel, de sens
lexical… Elle se rapproche ainsi de la sémantique
compositionnelle, qu’elle vient optimiser en suggérant des
préférences pour analyser des rattachements prépositionnels « Il
regarde la fille avec des lunettes noires. / Il écoute la fille
avec des lunettes noires. / Il regarde la route avec des lunettes
noires. » ou choisir un sens lexical « Cet avocat était véreux. Il
a ruiné son client sans le défendre. / Cet avocat était véreux. Tu
n’aurais pas dû le mettre dans la salade. »
Les travaux devront apporter un élément nouveau, que ce soit un
modèle symbolique qui se trouve inhabituellement enrichi de
techniques statistiques, ou que les méthodes statistiques soient
étendues à des structures jusqu’ici ignorées d’elles, ou encore
qu’on mette en oeuvre un modèle mixte n’ayant jamais été utilisé
en linguistique informatique. A titre d’exemple, l’acquisition sur
corpus annoté d’une grammaire hors contexte probabiliste et la
mesure de sa couverture sont considérées comme trop connues pour
être présentées à cet atelier.
Cet atelier est ouvert à tous les travaux novateurs mêlant
approches statistiques et méthodes symboliques dans l'analyse
syntaxique et sémantique du français, les exemples ci-dessus ne
sont mentionnés qu'à titre indicatif. Nous encourageons les
soumissions sous forme de prise de position, argumentaire
d'opinion, discussion de question ouverte, défrichage de
problématique, etc. : ce sujet neuf suscite le débat entre deux
communautés relativement distinctes.
LANGUE
A priori, l’utilisation de méthodes mixtes est indépendant de la
langue. Cependant nous ne considérerons que les articles proposant
un traitement automatique qui puisse s’appliquer à la syntaxe ou à
la sémantique du français.
Les non francophones qui le souhaitent peuvent soumettre un
article en anglais.
TYPES DE COMMUNICATIONS
Les articles seront rédigés en français pour les francophones, en
anglais pour ceux qui ne maîtrisent pas le français. Ils devront
suivre le format de TALN 2013 et comprendront 4 pages. Une
feuille de style LaTeX et un modèle Word sont disponibles sur le
site web de la conférence (http://www.taln2013.org/soumettre/).
Les articles retenus donneront lieu à une présentation orale, dont
la durée sera communiquée lors de l’acceptation.
CRITÈRES DE SÉLECTION
Les critères de sélection sont les mêmes que ceux définis par TALN
2013 pour les articles de recherche.