Site

Description

Objectif général

Les forums ont été un formidable objet d'étude depuis une dizaine d'années pour leur disponibilité et leur richesse en terme d'applications : pour cerner la nature du lien entre les usagers, identifier leurs rôles (Anokhin 2012) ou encore pour faire émerger des communautés virtuelles (Forestier 2011)… et pour différentes communautés : comme support à l'enseignement (Henri et Lundgren-Cayrol 2001), comme support à la recherche médicale (Battaïa 2012)…

Dans ce projet, nous nous focalisons sur l'analyse des forums de santé afin d'identifier des indicateurs d'émotion, de risque et d'incertitude que nous rattacherons à des objets médicaux (e.g. traitement, maladie…). Une fois ces éléments identifiés dans les textes, nous en proposerons des synthèses à destination des patients pour les aider à s’approprier les gros volumes d’informations présentes dans les forums (e.g. je suis atteint de la maladie X, qu’en pensent les autres ?) et des professionnels de santé (e.g. que pensent les patients de l'opération que je pratique, de mon hôpital ?).

Ce projet réunit un consortium inter-institutions (MSH de Montpellier, Lille et Toulouse), pluridisciplinaire en faisant appel aux trois disciplines (informatique, linguistique et statistiques) et international via une collaboration forte avec l'AICML de l’Université de l’Alberta.

Ce projet est mené en interaction forte avec l'environnement socio-économique (médical) puisque le CIC de Montpellier sera associé comme partenaire du projet et est le garant de l'intérêt médical des réalisations issues du projet.

Description scientifique

Il existe de nombreux forums de santé. Citons, par exemple, les forums très actifs tels que Doctissimo, Same-story ou Allo Docteurs , qui permettent à des internautes en tout genre (souvent non professionnels de la santé) d'échanger à propos de leur santé. Différentes études (Sproull et al. 1991, Bowker et al. 2002, Hancock 2007) ont montré que la communication et l'anonymat derrière un ordinateur facilitent l'expression d'émotions ou d'opinions qui sont généralement réprimées lors de communications plus traditionnelles comme des interviews en face à face ou des enquêtes. Les professionnels de santé ont tout intérêt à pouvoir exploiter ces sources d'informations. Par exemple, selon l’Express , les forums peuvent être utilisés pour générer des alertes. L’agence Conversationnel a étudié les forums traitant du Mediator. Elle a découvert que dès 2003, les internautes associaient ce médicament à la notion de risque. Analyser les forums de santé est donc un enjeu important car ils représentent une base volumineuse, riche, variée, unique, atypique… de connaissances des perceptions qu'ont les patients de leur maladie et des soins qui leur sont éventuellement prodigués. Dans ce contexte éminemment subjectif, la compréhension de ces perceptions est difficile, mais néanmoins particulièrement intéressante dans la perspective de compléter et améliorer les programmes de santé publique.

De nombreux verrous sont associés à l’analyse semi-automatique de ces forums (e.g. volumétrie, hétérogénéité). Cette tâche difficile nécessite la mise en commun de compétences issues de trois disciplines : informatique, statistique et linguistique. Dans ce projet nous nous focaliserons sur la recherche de trois objets :

  • les traces d’émotions. Si l’on trouve beaucoup de travaux portant sur l’analyse de la polarité des sentiments véhiculés par un texte (e.g. positif ou négatif), sur l’intensité de ces sentiments (e.g. plus ou moins positifs), on trouve beaucoup moins de références sur l’analyse des émotions de type : colère, dégout, peur, joie, tristesse, surprise (Mulder et al. 2004, Strapparava & Mihalcea 2008, Sander & Scherer 2009). Or, il est possible de repérer des traces de ces émotions dans les messages en étudiant les smileys (e.g. :-(), les marques de ponctuation (e.g. !), ou des marqueurs linguistiques spécifiques (e.g. avoir peur, douter…).
  • les formes linguistiques dénotant la notion de risque. Ces marqueurs peuvent être utilisés comme lanceurs d'alerte. En première analyse, le repérage de ces marqueurs peut se faire par requête lexicale : si on teste la requête dangereux sur le site Doctissimo, on repère risque et attention (e.g. attention à tel médicament)... On peut repérer également des lexèmes moins prévisibles comme "potentiellement" et identifier une nouvelle série de collocations "potentiellement grave", "potentiellement létal", "potentiellement mortel"....
  • l'incertitude occupe une place importante dans les écrits scientifiques et techniques, où elle peut jouer plusieurs rôles, dont celui de bouclier que le scientifique met afin de se détacher de tout engagement de sa responsabilité personnelle vis-à-vis d’un fait qu'il expose. Notre hypothèse est que le rôle joué par l'incertitude est différent dans les textes écrits par les patients. C'est ce que nous proposons d'étudier, de même que la relation qui existe entre l'incertitude et les émotions, l'incertitude et le risque, etc.

Dans ce travail, nous listerons les marqueurs relatifs à ces trois objets, nous proposerons des méthodes pour les rechercher automatiquement et nous monterons comment ces objets associés à d'autres marqueurs participent à la structure des messages et des discussions. Finalement, nous utiliserons ces marqueurs dans le cadre de deux scénarios :

  1. Modèle statistique permettant d’évaluer la présence de cooccurrences comme : médicament – sentiment, traitement – dangerosité, incertitude – sentiment... L’objectif est d’obtenir des indicateurs du type : "80% des patients qui écrivent dans les forums à propos du médicament X, l’associent à un sentiment de crainte". Nous utiliserons une implémentation des règles d’association (Agrawal 1993) présentes dans le logiciel WEKA pour identifier ces cooccurrences. Ces indicateurs seront présentés aux patients souvent noyés sous les flots d’informations des forums et aux professionnels de santé qui s’interrogent sur la perception des patients. Evidemment, ces indicateurs seront à nuancer puisque le panel de patients sera réduit à ceux qui contribuent dans les forums de santé.
  2. Méthode de détection automatique de signaux faibles (tâche de veille/surveillance) à partir d'un ensemble de messages. Cette méthode reposera sur une représentation saltonienne d’un corpus de messages classés en thèmes (par médicament, maladie…). Chaque thème sera représenté sous la forme d’un vecteur de mots. Chaque nouveau message à classer sera comparé à ces vecteurs pour identifier le thème le plus proche. Une alerte sera déclenchée si le nombre de messages associés à un thème suivi augmente de manière significative. Nous nous appuierons entre autre sur une famille de modèles hiérarchiques bayésiens (Blei et al. 2003) ou (Mika & Lafferty 2002) que nous comparerons à des algorithmes de type SVM (Support Vector Machine) (Aizerman 1964), déjà implémentés dans les logiciels R et WEKA.

Une analyse éthique des résultats obtenus avec ces deux approches sera réalisée. En effet, lors de la journée d’étude sur les forums de santé ayant eu l’an dernier à Montpellier, une importante partie des débats a porté sur les questions éthiques associées aux connaissances que l’on peut extraire. Par exemple, les patients ne donnent pas leur accord pour que leurs propos soient réutilisés lorsqu’ils s’inscrivent sur les forums.

Description des tâches du projet

Les trois premières tâches consistent à traiter les textes pour identifier des éléments particuliers :

  • Tâche 1 : Identification des indicateurs sémantiques de la notion de risque sur 4 niveaux : 1. lexical (nominal : risque, danger/sûreté, sécurité ; adjectival : dangereux/sûr), 2. morphologique (e.g. –gène : dans cancérigène, cancérogène…), 3. modal (adverbe : potentiellement ; auxiliation pouvoir/devoir), 4. pragmatique (attention, stop) (PRAXILING/CLLE)
  • Tâche 2 : Identification de marqueurs de sentiments : colère, crainte, joie… (LIRMM/CLLE) ;
  • Tâche 3 : Identification de traces d’incertitude (STL) ;

Les trois types d’indicateurs seront utilisés comme entrée des tâches 4 et 5.

  • Tâche 4 : Construction d’un modèle de cooccurrences basé sur les marqueurs identifiés dans les tâches 1 et 2 (I3M) ;
  • Tâche 5 : Conception et mise en place d’un processus de surveillance pour la levée d’alertes en cas d’apparition de signaux faibles pour un ensemble de sujets traités dans les messages (I3M/LIRMM) ;

Les connaissances extraites et les scénarios d’utilisation de ces connaissances seront évalués dans les tâches 6 et 7.

  • Tâche 6 : Validation des quatre méthodes proposées (sémantique des résultats, généricité, robustesse, passage à l’échelle, comparaison avec d’autres méthodes de la littérature...) (TOUS) ;
  • Tâche 7 : Validation éthique des connaissances extraites (STL) ;
  • Tâche 8 : Valorisation des travaux réalisés (TOUS).