Thème
L'extraction de connaissances à partir de textes de spécialité exige l'application d'un processus complet de fouille de textes. Une des étapes de ce processus complexe consiste à extraire des descripteurs linguistiques pertinents dans les textes. Cette extraction dépend des tâches pointues de fouille de textes que nous menons actuellement.
Sous-thèmes, collaborations et une publication majeure par sous-thème
Extraction de la terminologie à partir de logs / Extraction d'information dans les logs
H. Saneifar (LIRMM/Satin-IP - thèse), S. Bonniol (société Satin-IP), P. Poncelet (LIRMM), A. Laurent (LIRMM) [conférence internationale DEXA 2009]
Extraction de descripteurs linguistiques pour le titrage automatique
C. Lopez (LIRMM - thèse), V. Prince (LIRMM), M. Faure (Open-S/EvalAcces)
Extraction de la terminologie du français médiéval
C. Serp (Université Montpellier 3 - thèse), E. Cazal (Ingénieur CNAM), M. Teisseire (CEMAGREF), A. Laurent (LIRMM) [revue nationale Corpus 2008]
Extraction et agrégation de descripteurs dans les entrepôts de données textuelles
P. Poncelet (LIRMM), A. Laurent (LIRMM), M. Teisseire (CEMAGREF), S. Bringay (LIRMM), P. Nghiem (Ingénieur CNAM)
[conférence nationale EGC 2010]
Thèses co-encadrées
C. Lopez (depuis 2009) - Thèse Région LR / Université Montpellier 2
Thèse co-encadrée (70%) avec V. Prince (équipe TAL - LIRMM)
H. Saneifar (depuis 2008) - Thèse CIFRE avec la société Satin-IP
Thèse co-encadrée (60-70%) avec P. Poncelet (équipe Tatoo - LIRMM)
Leur enrichissement en Recherche d'Information
Thème
La plupart des approches utilisées en Recherche d'Information (RI) s'appuient sur des méthodes statistiques. L'enrichissement des descripteurs textuels de base se révèle crucial en RI. Ces approches d'enrichissement combinent des méthodes statistiques aux connaissances linguistiques (lexicales, morpho-syntaxiques, sémantiques). Notons que des étapes d'action et de rétro-action sont souvent nécessaires entre les processus d'extraction et d'enrichissement.
Sous-thèmes, collaborations et une publication majeure par sous-thème
Utilisation de connaissances morpho-syntaxiques pour la classification de textes d'opinion
P. Poncelet (LIRMM), M. Plantié (LGI2P-EMA), G. Dray (LGI2P-EMA), F. Trousset (LGI2P-EMA) [revue nationale Document Numérique 2008]
Utilisation de connaissances morpho-syntaxiques pour la classification de blogs
N. Verdier (société PaperBlog), I. Bayoudh (stage d'ingénieur - INSAT Tunisie) [conférence internationale IIP 2008]
Classification de données textuelles pauvres et hétérogènes
V. Poulain d'Andecy (société ITESOFT), H. Hamza (société ITESOFT) [revue nationale RNTI 2009]
Classification de candidatures d'offres d'emploi
R. Kessler (LIA - thèse), J.M. Torres-Moreno (LIA), M. El-Bèze (LIA), N. Béchet (LIRMM - thèse) [conférence internationale ISMIS 2009]
Visualisation de connaissances et de données textuelles de biomédecine
S. Bringay (LIRMM), M. Teisseire (CEMAGREF), A. Sallaberry (LABRI & PIKKO - thèse) [conférence internationale MIE 2009]
Thèse co-encadrée
N. Béchet (2006-2009, thèse soutenue le 08 décembre 2009) - Thèse BDI (co-financement Région LR / CNRS)
Thèse co-encadrée (90%) avec J. Chauché (équipe TAL - LIRMM)
Leur caractéristique lexicale
Thème
Les travaux menés consistent à étudier la proximité lexicale entre termes (tâche de mise en correspondance de schémas) et d'offrir une analyse lexicale de noms de marque pour identifier une tendance.
Sous-thèmes, collaborations et une publication majeure par sous-thème
Découverte de correspondances entre schémas
F. Duchateau (LIRMM - thèse), Z. Bellahsene (LIRMM), F. Pinet (CEMAGREF) [revue nationale ISI 2008]
Etude de connotations, détection de tendances
B. Laurent (Namae Concept), S. Jaillet (CrysaLEAD), A. Laurent (LIRMM)
[conférence internationale KEER 2010]
Transfert de Technologie associé aux Thèmes de Recherche
Porteur du projet ProSigles - 2007-2008.
Projet sélectionné par le Conseil Scientifique de l'Université Montpellier 2.
Le but de ce projet consiste à extraire et gérer des sigles issus de textes plus ou moins spécialisés.
Porteur du projet TSAL (Traitement Statistique et Algorithmique du Langage) - 2006.
Projet "Pluridisciplinaires 2006" - Département STICS de l'Université Montpellier 2.
Ce projet a pour but d'extraire des connaissances à partir de corpus écrits en français médiéval.
Membre de l'ANR Forum (2005-2008) portée par Z. Bellahsene (LIRMM).
L'objectif est d'étendre les techniques d'intégration pour permettre le partage de données dans un environnement à grande échelle.
Accompagnement de divers Projets Incubés du Languedoc-Roussillon Incubation.
EvalAcces (porteur M. Faure) - incubé en 2008 (part du LIRMM : 12Keuros),
Namae Concept (porteuse B. Laurent) - incubé en 2007 (part du LIRMM : 4Keuros)