Séminaires
Jeudi 8 décembre 2011, à 15h30 en E.323, LIRMM
Guy Lapalme, (Université de Montréal).
Le concordancier bilingue TransSearch, derniers développements
Nous décrirons d'abord les buts et les utilisations typiques du concordancier bilingue TransSearch, un outil pour aider les traducteurs à trouver des solutions à des problèmes de traduction. Nous présenterons ensuite la recherche qui a mené à la nouvelle version du système intégrant la détermination des correspondances afin de faciliter le travail des traducteurs et d'élargir la gamme d'applications de TransSearch.
Mardi 22 novembre 2011, à 11h00 en E.323, LIRMM
Jean-Yves Delort, (Google Zurich).
Learning to Filter Inappropriate Content in Online Discussion SitesUsing Partially Labelled data.
Online discussion sites (ODS) are plagued with various types of unwanted content such as spam, obscene and malicious contents. Prevention and detection-based techniques have been proposed to filter inappropriate content (IC) out from ODS. But, while prevention techniques have been widely adopted, detection of IC remains mostly a manual task. Existing detection techniques, which are divided into rule-based and statistical techniques, suffer from various limitations. Rule-based techniques usually consist of manually crafted rules or blacklists of keywords. Both are time-consuming to create and tend to generate too many false-positives and false-negatives. Statistical techniques typically use corpora of labeled examples to train a classifier to tell "good" and "bad" messages apart. Although statistical techniques are generally more robust than rule-based techniques, they are difficult to deploy because of the prohibitive cost of manually labeling examples.
In this presentation, we describe a novel classification technique to train a classifier from a partially labeled corpus and use it to moderate IC in ODS. Partially labeled corpora are much easier to produce than completely labeled corpora, as they are only made up with unlabeled examples and examples labeled with a single class (e.g. "bad"). We implemented and tested this technique on a corpus of messages posted on a stock message board and compared it with two baseline
techniques. Results show that our method outperforms the two baselines and that it can effectively be used to automatically moderate IC in ODS.
Mercredi 16 novembre 2011, à 10h30 en Salle des séminaires, LIRMM
Cédrick Fairon, CENTAL (UCL).
Méthodes linguistiques pour le traitement de l'information médicale.Deux applications exploitant l’annotation du texte libre dans des dossiers patients informatisés.
Les systèmes informatiques de gestion des dossiers médicaux (Electronic Health Record ou Dossier médical personnel) sont de plus en plus largement utilisés dans la profession médicale. Aux USA, leur usage est actuellement promu par des actions gouvernementales très ambitieuses. Dans ces systèmes, une grande partie de l'information stockée est textuelle et "non structurée" : il s'agit de notes de suivi, de comptes rendus d'hospitalisation, de courriers, de résultats de laboratoire, etc. Dès que le volume d'information croit, il devient impossible pour le médecin de parcourir l'ensemble de ces documents et d'avoir une vue synthétique de l'information qu'ils contiennent. Pourtant, on comprend aisément que la qualité de l'accès à l'information est primordiale pour assurer la qualité des soins et la sécurité des patients. Par ailleurs, la taille de ces bases de données offre un potentiel énorme pour la recherche médicale (extraction de connaissances, épidémiologie, etc.).
Après avoir présenté cette réalité et les enjeux actuels, nous présenterons deux expériences visant à exploiter l'information issue de dossiers médicaux à l'aide de techniques de traitement automatique du langage. La première expérience a été réalisée au CENTAL dans le cadre du projet CAPADIS et vise à automatiser la production de "résumés cliniques minimum" (encodage ICD9-CM des lettres de sortie d’un hôpital partenaire). La seconde a été réalisée sous la direction de Nigam Shah au Biomedical Informatics Research Center de l’Université de Stanford et vise à exploiter l’information contenue dans les dossiers médicaux en vue de tester des hypothèses sur la dangerosité et les effets secondaires suspectés de médicaments.
Mercredi 17 juillet 2011, de 10h00 à 11h00 en Salle E223, LIRMM
Auriane Landomiel, Université Montpellier II et équipe TAL (LIRMM).
Statistiques et alignements à partir d'un corpus SMS
Cette présentation est le fruit d'un travail de stage d'une durée d'un mois au sein de l'équipe TAL. Ce travail s'intéresse à la constitution automatique d'un dictionnaire de "traduction" par une approche d'alignements. Par exemple, "jtm" doit être associé à "je t'aime".
Mardi 7 juin 2011, de 9h45 à 10h30 en Salle E323, LIRMM
Mathieu Roche, Université Montpellier II et équipe TAL (LIRMM).
Gloses
Nous proposons d'extraire des connaissances lexicales en exploitant les « gloses » de mot, ces descriptions spontanées de sens, repérables par des marqueurs lexicaux et des configurations morpho-syntaxiques spécifiques. Ainsi dans l’extrait suivant, le mot testing est suivi d’une glose en c’est-à-dire : « 10 % de ces embauches vont porter sur un métier qui monte : le «testing», c'est-à-dire la maîtrise des méthodologies rigoureuses de test des logiciels». Cette approche ouvre des perspectives pour l'acquisition lexicale et terminologique, fondamentale pour de nombreuses tâches. Dans cette présentation, nous comparons deux façons d'extraire les unités en relation de glose : patrons et statistiques d’associations d’unités sur le web, en les évaluant sur des données réelles.
Mardi 24 mai 2011, de 10h45 à 12h en Salle des séminaires, LIRMM
Nuria Gala, Laboratoire d'Informatique Fondamentale (LIF), Aix-Marseille Université.
Ressources lexicales pour familles morphologiques : aspects mono- et multilingues.
Les ressources morphologiques décrivent de façon approfondie et explicite l'organisation morphologique du lexique complétée d'informations sémantiques exploitables dans le domaine du TAL. Dans ce séminaire, nous présenterons quelques ressources existantes ainsi que les méthodes généralement mises en oeuvre pour leur constitution et enrichissement. Plus particulièrement, nous décrirons Polymots, une ressource lexicale qui met en évidence des familles morpho-phonologiques pour le français (des mots partageant une même racine et une continuité de sens). Les premières expériences de constitution d'une ressource multilingue à partir de Polymots seront également présentées et évaluées.
A propos de l'oratrice :
Nuria Gala est maître de conférences en linguistique et informatique à l'université d'Aix-Marseille (depuis 2004) et membre de l'équipe TALEP du LIF (depuis 2008). Elle s'intéresse à la modélisation de phénomènes morpho-syntaxiques d'un point de vue multilingue, à la création de ressources lexicales (lexiques syntaxiques, lexiques morphologiques) et aux apports du traitement automatique des langues dans des domaines comme la lexicographie computationnelle et l'apprentissage des langues.
Mardi 24 mai 2011, de 9h00 à 10h15 en Salle des séminaires, LIRMM
Michael Zock, Laboratoire d'Informatique Fondamentale (LIF), Aix-Marseille Université.
Si tous les chemins mènent à Rome, ils ne se valent pas tous. Le problème d’accès lexical
Tout le monde a déjà rencontré le problème suivant : on cherche un mot (ou le nom d’une personne) que l’on connaît, sans être en mesure d’y accéder à temps. Les travaux des psychologues ont montré que les personnes se trouvant dans cet
état savent énormément de choses sur le mot recherché (sens, nombre de syllabes, etc.), et que les mots avec lequel ils le confondent lui ressemble étrangement (lettre ou son initial, catégorie syntaxique, champ sémantique, etc.).
L’objectif de notre travail est de réaliser un programme tirant bénéfice de cet état de fait pour assister un locuteur ou rédacteur à (re)trouver le mot qu’il a sur le bout de la langue. À cette fin, nous prévoyons d’ajouter à un dictionnaire électronique existant un index d’association (collocations rencontrées dans un grand corpus). Autrement dit, nous proposons de construire une ressource analogue du dictionnaire mental, qui, outre les informations conventionnelles (définition, forme écrite, informations grammaticales) contiendrait des liens (associations), permettant de naviguer entre les idées (concepts) et leurs expressions (mots). Un tel dictionnaire, permettrait donc l’accès à l’information recherchée soit par la forme (lemmes : analyse), soit par le sens (concepts : production), soit par les deux.
A propos de l'orateur :
Etant chercheur au CNRS, Michael Zock a travaillé pendant des longues années au LIMSI, avant de ne rejoindre en 2006 le LIF à Marseille. Ayant une formation de psycholinguiste et travaillant dans le domaine de la génération de textes, il s’intéresse avant tout aux problèmes qui se posent à un être humain lors de la production de langage (discours spontané, accès lexical, rédaction de textes) ou lors de l’acquisition de cette compétence.
Mardi 29 mars 2011, de 9h00 à 10h30 en Salle des séminaires, LIRMM
Mathieu Lafourcade, Université Montpellier II et équipe TAL (LIRMM).
JeuxDeMots.org
Présentation générale du réseau lexical Jeux de Mots.
Mardi 12 avril 2011, de 9h00 à 10h30 en Salle des séminaires, LIRMM
Cédric Lopez, Université Montpellier II et équipe TAL (LIRMM).
Génération automatique de titres courts par des méthodes de fouille du Web, Salle des séminaires, LIRMM
Le titrage automatique de documents textuels est une tâche essentielle pour plusieurs applications (titrage de mails, génération automatique de sommaires, synthèse de documents, etc.). Cette étude présente une méthode de génération de titres courts appliquée à un corpus d’articles journalistiques via des méthodes de Fouille du Web. Il s’agit d’une première étape cruciale dans le but de proposer une méthode de génération de titres plus complexes. Dans cet article, nous présentons une méthode proposant des titres tenant compte de leur cohérence par rapport au texte, par rapport au Web, ainsi que de leur contexte dynamique. L’évaluation de notre approche indique que nos titres générés automatiquement sont informatifs et/ou accrocheurs.
Lundi 5 juillet 2010
Christian Rétoré, Université Bordeaux I LaBRI et équipe Signes (INRIA).
Une intégration de la sémantique lexicale à la sémantique compositionnelle montagovienne
Les modèles formels de la sémantique du langage naturel sont relativement pauvres et méconnus si on les compare à ceux utilisés pour sa syntaxe. La sémantique de Montague, plutôt satisfaisante du point de vue formel, reste incapable d’exprimer la polysémie ou les relations entre significations. À l’autre extrême, les sémantiques lexicales sans structures, et en particulier sans structure argumentale, n'ont pas de règles de composition pour calculer la signification d’entités composées. Nous avons proposé une notion de lexique sémantique dans la lignée du lexique génératif de J. Pustejovsky comme un raffinement de la sémantique de R. Montague: en plus du lambda-terme usuel représentant la structure argument d’un mot, le lexique associe aussi des lambda-termes permettant au mot de changer son type et d’être relié à ses autres significations possibles. Le lambda-calcul du second ordre est utilisé pour anticiper les changements de type dépendant des types affectés aux autres mots. Ceci fournit un algorithme correct de calcul du sens d'expressions composées, que ce soit en utilisant les aspects pertinents du sens lors de la composition (qualia exploitation) ou en produisant exactement les sens correspondants à des coprédications possibles et en bloquant celles qui ne le sont pas --- ce que les modèles proposés jusqu'ici ne faisaient pas automatiquement.
On peut ainsi traiter d'exemples comme:
(1) un sourire amoureux et interrogatif (c'est l'auteur du sourire et non le sourire lui même qui est amoureux et s'interroge)
(2) ?? Le thon que nous avons mangé hier était vif comme l'éclair et délicieux (coprédication quasi impossible entre l'animal et la nourriture)
(3) Copenhague est à la fois un port et une capitale cosmopolite (coprédication très acceptable entre le lieu, l'institution et les personnes)
Pour conclure nous procéderons à notre autocritique et expliquerons comment des systèmes de types plus raffinés issus de la logique linéaire pourraient constituer un juste milieu entre l'approche présentée où types et termes sont trop indépendants et celle de N. Asher où les termes sont dictés par les types: linguistiquement il est clair que seuls certains types permettent l'existence de transformateurs de types, mais il est également évident que leur existence dépend de la langue et de l'entrée lexicale considérée et non de l'ontologie du monde. Comment en rendre compte?
Towards a Type-Theoretical Account of Lexical Semantics
Bassac C., Mery B., Retoré C.
Journal of Logic Language and Information (2009)
http://hal.archives-ouvertes.fr/docs/00/40/83/08/PDF/bassac-mery-retore-revised.pdf

