Séminaires

Séminaires

Mardi 19 mars 2013, à 10h00 en E.323, LIRMM

Manel Zarrouk (LIRMM, équipe TEXTE)

Inference and reconciliation in a lexical-semantic network (CICLING'2013)

Mardi 12 mars 2013, à 10h00 en E.324, LIRMM

Lilia Berrahou (LIRMM/INRA/AgroPariTech, équipe TEXTE)

Extraction de relations n-aires dans le texte et les tableaux

Mardi 18 décembre 2012, à 10h00 en E.324, LIRMM

Julien Bonneau (Laboratoire "Bases, Corpus, Langage", Nice)

Sémantique occurrentielle et cooccurrentielle dans un corpus textuel : de l'opposition entre mots aux contrastes entre réseaux

La logométrie propose le rapprochement des pratiques lexicométriques – méthodes de comparaison statistique des textes – et des théories récentes de la linguistique textuelle à travers de nouveaux observables et de nouveaux modes d’interprétation. Dans ce cadre, nous proposons une mise en œuvre statistique de la sémantique textuelle interprétative sur un corpus de textes de Pierre Mendès France (1922-1982) : sont construits des parcours interprétatifs qui vont du global – le corpus – vers le local – ses partitions contrastives – en considérant l’influence de la situation historico-sociale sur les textes. Ainsi, deux grandes variables qui traversent le corpus sont testées : la variable chronologique et la variable générique. Nous établissons que le corpus est structuré par ses hautes fréquences et étudions, de manière privilégiée, le vocabulaire banal. On y applique deux traitements cooccurrentiels : l’environnement cotextuel et la cooccurrence asymétrique. Le premier aboutit à la description de fonds textuels et intertextuels sur lesquels se détachent des formes sémantiques. La seconde décrit des contours rythmiques de variation lexicale qui semblent associés, dans notre corpus, à des visées argumentatives distinctes : informatives ou persuasives-explicatives.

Jeudi 11 décembre 2012, à 10h00 en E.324, LIRMM

Rémy Kessler (Université de Montréal, Canada)

Extraction de dates saillantes pour la construction de chronologies thématiques

Nous présentons ici une approche pour la détection de dates saillantes (importantes) dans les textes dans le but de construire automatiquement des chronologies événementielles à partir de requêtes thématiques (ex. le nom d’un événement, d’une personne, etc.). Ce travail a été mené sur un corpus de dépêches en français et en anglais fourni par l’Agence France Presse (AFP). Pour extraire les dates saillantes qui méritent de figurer dans une chronologie événementielle, les expressions temporelles dans les textes doivent dans un premier temps être reconnues et normalisées. Nous utilisons ensuite une approche par apprentissage pour extraire les dates saillantes pour un thème donné. Nous ne nous intéressons pour le moment qu’à l’extraction des dates et pas aux événements associés.

Jeudi 14 novembre 2012, à 15h30 en E.323, LIRMM

Christian Retoré (Université Bordeaux 1 et LaBRI en délégation CNRS à l'IRIT)

Sémantique du langage naturel en théorie des types

Dans cet exposé, j'essaierai de vous montrer comment la théorie des types, et plus particulièrement le lambda calcul typé du second ordre, fournit un cadre général pour la sémantique du langage naturel. L'exposé se veut accessible au plus grand nombre et je rappellerai à cet effet les bases logiques d'une telle approche --- cependant une certaine familiarité avec la programmation fonctionnelle typée pourra aider.

Nous proposons une sémantique compositionnelle qui calcule la ou les formules logiques associées au sens d'une phrase à partir d'un lexique et de la structure syntaxique. On utilise un système de types plus riche (le lambda calcul du second ordre) que celui initialement utilisé par Church-Montague (le lambda calcul simplement typé), et la donnée dans le lexique de transformations optionnelles le lexique comporte pour certains mots des des lambda termes dont l'utilisation est optionnelle permettant de rendre compte de la variation en contexte du sens lexical.

Ce travail développé avec Ch. Bassac, B. Mery, R. Moot, L. Prévot,...

est à rapprocher de certains travaux de Asher, Luo et Soloviev.

Du point de vue de la sémantique lexicale, on peut rendre compte, de la référence à une facette du sens d'un mot, et de la prédication sur diverses facettes du sens d'un même mot "Washington borde le Potomac."

"Washington a déclaré la guerre à l'Irak."

???"Washington borde le Potomac et a déclaré la guerre à l'Irak."

On peut même rendre compte de glissement de sens plus complexes encore, comme le voyageur virtuel (fictive motion).

- "La route descend pendant deux heures." (qui en raison de complément de temps nécessite d'imaginer un individu qui emprunte la route mais n'existe pas forcément) Du point de vue de la sémantique compositionnelle, on peut calculer les formes logiques d'énoncés comportant

- des quantifications généralisées,

"Les anglais aiment la France." -- dont un des sens est "la plupart des ..."

- des pluriels,

"Les bleus ont perdu." (collectif)

"Les bleus ont moins de trente ans." (distributif)).

Je conclurai par quelques les questions ouvertes par ce travail, dont certaines sont en rapport avec les travaux développés au LIRMM :

- quelle notion de sous-typage est à la fois adaptée au système de types et à son utilisation linguistique?

- quels sont les types de bases, quelles sont les les glissements de sens naturels? peut-on les acquérir? (le réseau lexical de M. Lafourcade peut sans doute aider)

- peut on combiner cette approche logique avec la sémantique vectorielle? (il a déjà des travaux en ce sens de A. Preller et V.

Prince)

- quel est le lien entre le typage (irréfutable comme l'est une

présupposition) et la logique dans laquelle on exprime la sémantique par des propositions (dont l'interprétation peut être vraie ou fausse) ?

Mardi 2 octobre 2012, à 10h00 en E.323, LIRMM

Diana Inkpen (Université d'Ottawa, Canada)

Personalized medicine through automatic extraction of information from medical texts

The wealth of medical-related information that can be accessed today gives rise to a multidimensional source of knowledge for the health care domain. Research discoveries published in prestigious venues, data that lies in electronic-health records, discharge summaries, clinical notes, etc., all represent important medical information that can assist in the decision making process. The challenge that comes with accessing such vast and diverse sources of data stands in the ability to distil and extract reliable and relevant information. Computer-based tools that use natural language processing and machine learning techniques have been proven to help addressing such challenges.

In this talk, I present experimental results for four problems that represent important pieces in the puzzle of building a computer-based personalized medicine. I address the problem of automatically identifying medical cases from textual data presented in discharge summaries, and the problem of identifying, from published-research discoveries, reliable information to certain medical topics. I show how genetic information can be extracted and added to the information a health-care provider can use when assessing a medical case; and last but not the least, I describe experimental results for identifying and classifying semantic relations between medical entities in technical data, this, with the aim of prescribing individual-tailored therapies.

Jeudi 8 décembre 2011, à 15h30 en E.323, LIRMM

Guy Lapalme, (Université de Montréal).

Le concordancier bilingue TransSearch, derniers développementsNous décrirons d'abord les buts et les utilisations typiques du concordancier bilingue TransSearch, un outil pour aider les traducteurs à trouver des solutions à des problèmes de traduction. Nous présenterons ensuite la recherche qui a mené à la nouvelle version du système intégrant la détermination des correspondances afin de faciliter le travail des traducteurs et d'élargir la gamme d'applications de TransSearch.

Mardi 22 novembre 2011, à 11h00 en E.323, LIRMM

Jean-Yves Delort, (Google Zurich).

Learning to Filter Inappropriate Content in Online Discussion Sites
Using Partially Labelled data.

Online discussion sites (ODS) are plagued with various types of unwanted content such as spam, obscene and malicious contents. Prevention and detection-based techniques have been proposed to filter inappropriate content (IC) out from ODS. But, while prevention techniques have been widely adopted, detection of IC remains mostly a manual task. Existing detection techniques, which are divided into rule-based and statistical techniques, suffer from various limitations. Rule-based techniques usually consist of manually crafted rules or blacklists of keywords. Both are time-consuming to create and tend to generate too many false-positives and false-negatives. Statistical techniques typically use corpora of labeled examples to train a classifier to tell "good" and "bad" messages apart. Although statistical techniques are generally more robust than rule-based techniques, they are difficult to deploy because of the prohibitive cost of manually labeling examples.

In this presentation, we describe a novel classification technique to train a classifier from a partially labeled corpus and use it to moderate IC in ODS. Partially labeled corpora are much easier to produce than completely labeled corpora, as they are only made up with unlabeled examples and examples labeled with a single class (e.g. "bad"). We implemented and tested this technique on a corpus of messages posted on a stock message board and compared it with two baseline
techniques. Results show that our method outperforms the two baselines and that it can effectively be used to automatically moderate IC in ODS.

Mercredi 16 novembre 2011, à 10h30 en Salle des séminaires, LIRMM

Cédrick Fairon, CENTAL (UCL).

Méthodes linguistiques pour le traitement de l'information médicale.
Deux applications exploitant l’annotation du texte libre dans des dossiers patients informatisés.

Les systèmes informatiques de gestion des dossiers médicaux (Electronic Health Record ou Dossier médical personnel) sont de plus en plus largement utilisés dans la profession médicale. Aux USA, leur usage est actuellement promu par des actions gouvernementales très ambitieuses. Dans ces systèmes, une grande partie de l'information stockée est textuelle et "non structurée" : il s'agit de notes de suivi, de comptes rendus d'hospitalisation, de courriers, de résultats de laboratoire, etc. Dès que le volume d'information croit, il devient impossible pour le médecin de parcourir l'ensemble de ces documents et d'avoir une vue synthétique de l'information qu'ils contiennent. Pourtant, on comprend aisément que la qualité de l'accès à l'information est primordiale pour assurer la qualité des soins et la sécurité des patients. Par ailleurs, la taille de ces bases de données offre un potentiel énorme pour la recherche médicale (extraction de connaissances, épidémiologie, etc.).

Après avoir présenté cette réalité et les enjeux actuels, nous présenterons deux expériences visant à exploiter l'information issue de dossiers médicaux à l'aide de techniques de traitement automatique du langage. La première expérience a été réalisée au CENTAL dans le cadre du projet CAPADIS et vise à automatiser la production de "résumés cliniques minimum" (encodage ICD9-CM des lettres de sortie d’un hôpital partenaire). La seconde a été réalisée sous la direction de Nigam Shah au Biomedical Informatics Research Center de l’Université de Stanford et vise à exploiter l’information contenue dans les dossiers médicaux en vue de tester des hypothèses sur la dangerosité et les effets secondaires suspectés de médicaments.

Mercredi 17 juillet 2011, de 10h00 à 11h00 en Salle E223, LIRMM

Auriane Landomiel, Université Montpellier II et équipe TAL (LIRMM).

Statistiques et alignements à partir d'un corpus SMS

Cette présentation est le fruit d'un travail de stage d'une durée d'un mois au sein de l'équipe TAL. Ce travail s'intéresse à la constitution automatique d'un dictionnaire de "traduction" par une approche d'alignements. Par exemple, "jtm" doit être associé à "je t'aime".

Mardi 7 juin 2011, de 9h45 à 10h30 en Salle E323, LIRMM

Mathieu Roche, Université Montpellier II et équipe TAL (LIRMM).

Gloses

Nous proposons d'extraire des connaissances lexicales en exploitant les « gloses » de mot, ces descriptions spontanées de sens, repérables par des marqueurs lexicaux et des configurations morpho-syntaxiques spécifiques. Ainsi dans l’extrait suivant, le mot testing est suivi d’une glose en c’est-à-dire : « 10 % de ces embauches vont porter sur un métier qui monte : le «testing», c'est-à-dire la maîtrise des méthodologies rigoureuses de test des logiciels». Cette approche ouvre des perspectives pour l'acquisition lexicale et terminologique, fondamentale pour de nombreuses tâches. Dans cette présentation, nous comparons deux façons d'extraire les unités en relation de glose : patrons et statistiques d’associations d’unités sur le web, en les évaluant sur des données réelles.

Mardi 24 mai 2011, de 10h45 à 12h en Salle des séminaires, LIRMM

Nuria Gala, Laboratoire d'Informatique Fondamentale (LIF), Aix-Marseille Université.

Ressources lexicales pour familles morphologiques : aspects mono- et multilingues.

Les ressources morphologiques décrivent de façon approfondie et explicite l'organisation morphologique du lexique complétée d'informations sémantiques exploitables dans le domaine du TAL. Dans ce séminaire, nous présenterons quelques ressources existantes ainsi que les méthodes généralement mises en oeuvre pour leur constitution et enrichissement. Plus particulièrement, nous décrirons Polymots, une ressource lexicale qui met en évidence des familles morpho-phonologiques pour le français (des mots partageant une même racine et une continuité de sens). Les premières expériences de constitution d'une ressource multilingue à partir de Polymots seront également présentées et évaluées.

A propos de l'oratrice :
Nuria Gala est maître de conférences en linguistique et informatique à l'université d'Aix-Marseille (depuis 2004) et membre de l'équipe TALEP du LIF (depuis 2008). Elle s'intéresse à la modélisation de phénomènes morpho-syntaxiques d'un point de vue multilingue, à la création de ressources lexicales (lexiques syntaxiques, lexiques morphologiques) et aux apports du traitement automatique des langues dans des domaines comme la lexicographie computationnelle et l'apprentissage des langues.

Mardi 24 mai 2011, de 9h00 à 10h15 en Salle des séminaires, LIRMM

Michael Zock, Laboratoire d'Informatique Fondamentale (LIF), Aix-Marseille Université.

Si tous les chemins mènent à Rome, ils ne se valent pas tous. Le problème d’accès lexical

Tout le monde a déjà rencontré le problème suivant : on cherche un mot (ou le nom d’une personne) que l’on connaît, sans être en mesure d’y accéder à temps. Les travaux des psychologues ont montré que les personnes se trouvant dans cet
état savent énormément de choses sur le mot recherché (sens, nombre de syllabes, etc.), et que les mots avec lequel ils le confondent lui ressemble étrangement (lettre ou son initial, catégorie syntaxique, champ sémantique, etc.).

L’objectif de notre travail est de réaliser un programme tirant bénéfice de cet état de fait pour assister un locuteur ou rédacteur à (re)trouver le mot qu’il a sur le bout de la langue. À cette fin, nous prévoyons d’ajouter à un dictionnaire électronique existant un index d’association (collocations rencontrées dans un grand corpus). Autrement dit, nous proposons de construire une ressource analogue du dictionnaire mental, qui, outre les informations conventionnelles (définition, forme écrite, informations grammaticales) contiendrait des liens (associations), permettant de naviguer entre les idées (concepts) et leurs expressions (mots). Un tel dictionnaire, permettrait donc l’accès à l’information recherchée soit par la forme (lemmes : analyse), soit par le sens (concepts : production), soit par les deux.

A propos de l'orateur :
Etant chercheur au CNRS, Michael Zock a travaillé pendant des longues années au LIMSI, avant de ne rejoindre en 2006 le LIF à Marseille. Ayant une formation de psycholinguiste et travaillant dans le domaine de la génération de textes, il s’intéresse avant tout aux problèmes qui se posent à un être humain lors de la production de langage (discours spontané, accès lexical, rédaction de textes) ou lors de l’acquisition de cette compétence.

Mardi 29 mars 2011, de 9h00 à 10h30 en Salle des séminaires, LIRMM

Mathieu Lafourcade, Université Montpellier II et équipe TAL (LIRMM).

JeuxDeMots.org

Présentation générale du réseau lexical Jeux de Mots.

Mardi 12 avril 2011, de 9h00 à 10h30 en Salle des séminaires, LIRMM

Cédric Lopez, Université Montpellier II et équipe TAL (LIRMM).

Génération automatique de titres courts par des méthodes de fouille du Web, Salle des séminaires, LIRMM

Le titrage automatique de documents textuels est une tâche essentielle pour plusieurs applications (titrage de mails, génération automatique de sommaires, synthèse de documents, etc.). Cette étude présente une méthode de génération de titres courts appliquée à un corpus d’articles journalistiques via des méthodes de Fouille du Web. Il s’agit d’une première étape cruciale dans le but de proposer une méthode de génération de titres plus complexes. Dans cet article, nous présentons une méthode proposant des titres tenant compte de leur cohérence par rapport au texte, par rapport au Web, ainsi que de leur contexte dynamique. L’évaluation de notre approche indique que nos titres générés automatiquement sont informatifs et/ou accrocheurs.

Lundi 5 juillet 2010

Christian Rétoré, Université Bordeaux I LaBRI et équipe Signes (INRIA).

Une intégration de la sémantique lexicale à la sémantique compositionnelle montagovienne

Les modèles formels de la sémantique du langage naturel sont relativement pauvres et méconnus si on les compare à ceux utilisés pour sa syntaxe. La sémantique de Montague, plutôt satisfaisante du point de vue formel, reste incapable d’exprimer la polysémie ou les relations entre significations. À l’autre extrême, les sémantiques lexicales sans structures, et en particulier sans structure argumentale, n'ont pas de règles de composition pour calculer la signiﬁcation d’entités composées. Nous avons proposé une notion de lexique sémantique dans la lignée du lexique génératif de J. Pustejovsky comme un raffinement de la sémantique de R. Montague: en plus du lambda-terme usuel représentant la structure argument d’un mot, le lexique associe aussi des lambda-termes permettant au mot de changer son type et d’être relié à ses autres signiﬁcations possibles. Le lambda-calcul du second ordre est utilisé pour anticiper les changements de type dépendant des types affectés aux autres mots. Ceci fournit un algorithme correct de calcul du sens d'expressions composées, que ce soit en utilisant les aspects pertinents du sens lors de la composition (qualia exploitation) ou en produisant exactement les sens correspondants à des coprédications possibles et en bloquant celles qui ne le sont pas --- ce que les modèles proposés jusqu'ici ne faisaient pas automatiquement.

On peut ainsi traiter d'exemples comme:
(1) un sourire amoureux et interrogatif (c'est l'auteur du sourire et non le sourire lui même qui est amoureux et s'interroge)
(2) ?? Le thon que nous avons mangé hier était vif comme l'éclair et délicieux (coprédication quasi impossible entre l'animal et la nourriture)
(3) Copenhague est à la fois un port et une capitale cosmopolite (coprédication très acceptable entre le lieu, l'institution et les personnes)

Pour conclure nous procéderons à notre autocritique et expliquerons comment des systèmes de types plus raffinés issus de la logique linéaire pourraient constituer un juste milieu entre l'approche présentée où types et termes sont trop indépendants et celle de N. Asher où les termes sont dictés par les types: linguistiquement il est clair que seuls certains types permettent l'existence de transformateurs de types, mais il est également évident que leur existence dépend de la langue et de l'entrée lexicale considérée et non de l'ontologie du monde. Comment en rendre compte?

Towards a Type-Theoretical Account of Lexical Semantics
Bassac C., Mery B., Retoré C.
Journal of Logic Language and Information (2009)
http://hal.archives-ouvertes.fr/docs/00/40/83/08/PDF/bassac-mery-retore-revised.pdf