Contributeurs :

Elnaz Bigdeli(4), Flavien Bouillot(1) Sandra Bringay(2) Dino Ienco(3), Diana Inkpen(4), Stan Matwin(4), Pascal Poncelet (1), Mathieu Roche(1), Maguelonne Teisseire(3)

(1)LIRMM – CNRS - Université Montpellier 2, France - (2)LIRMM – CNRS - Université Montpellier 3, France - (3)UMR TETIS-Irstea, France
- (4) University of Ottawa, Canada

Contact :

{poncelet,mroche}@lirmm.fr

Présentation :

Le projet PoLop (Political Opinion Mining), mené conjointement avec des équipes de recherche Française et Canadienne, a pour objectif d'analyser le comportement de communautés au cours du temps via le réseau social Twitter. Depuis son introduction en 2006, le site Web de Twitter s'est tellement développé qu'il fait actuellement parti des 10 sites web les plus visités dans le monde et aujourd'hui l'utilisation de tweets pour exprimer une idée, une opinion, annoncer une nouvelle (e.g.,  en janvier 2010, le nombre de tweets échangés a atteint 1,2 milliards et plus de 40 millions de tweets sont échangés par jour en moyenne). Les différentes équipes impliquées dans ce projet travaillent depuis plusieurs années sur l'application de techniques de fouilles de données ou d'analyses des tweets dans différents domaines (e.g., santé, détection de catastrophes natuelles, ...). Dans le cadre de ce projet, il s'agit plus particulièrement d'étudier comment le comportement de différentes communautés évolue au cours du temps. L'un des exemples d'applications illustrant tout particulièrement cette problématique est l'analyse de tweets de partis politiques notamment lors des élections Présidentielles de 2012 en France.

Ce qu'expriment les tweets de personnalités politiques ?



F. Hollande

PS


N. Sarkozy
UMP

J.L. Mélenchon
FdG

M. Le Pen
FN

F. Bayrou
MoDem

E. Joly
EELV
Nuages des mots discriminants par partis pour la semaine 15 (du 9 au 15 avril 2012).
Réalisé à partir de



Parti Socialiste
(2 656 tweets)
UMP
(2 415 tweets)
MoDem
(898 tweets)



Front de Gauche
(591 tweets)
Front National
(36 tweets)
Europe Ecologie - Les Verts
(715 tweets)

D'autres nuages de mots...


Nuages de mots par semaine depuis décembre 2011 pour le PS et l'UMP


Nuages de mots du mois de mars 2012


Nuages de mots depuis décembre 2011







Nombre de tweets émis par partis et par mois
Cumul du nombre de tweets émis par partis et par mois








Evolution du nombre de tweets contenant le tag #Toulouse




Principe général de l'approche PoloP :

L'approche PoloP est fondée sur le processus suivant. En premier lieu, un ensemble de tweets correspondant aux différentes communautés est tout d'abord extrait.  Lors des expérimentations menées et présentées nous avons suivi 200 personnalités politiques citées sur le site www.elus20.fr. Les personnes suivies ainsi que les personnes qui suivent ont également été récupérées. Depuis le 12 décembre 2011, nous avons ainsi obtenu  1 146 617 tweets. Différentes techniques de fouilles de données et d'analyses du traitement du langage textuel sont appliquées pour extraire d'une part les mots caractéristiques d'une opinion et ceux spécifiques d'une communauté. Cette tâche est délicate dans la mesure où il est indispensable de prendre en compte la particularité des messages envoyés au travers des tweets (140 caractères au maximum, notations abrégées, smiley, etc.). Les approches traditionnelles d'analyse de documents se retrouvent aujourd'hui en échec lorsqu'il s'agit d'analyser de telles données. Pour cela nous appliquons d'une part une analyse textuelle du contenu des tweets via des analyseurs morpho-syntaxiques (e.g., Treetagger, Brill) ainsi que différents traitements de nettoyage des données.

L'étape suivante consiste à séparer les mots porteurs d'opinions. Dans ce cas nous considérons que certains mots sont indépendants des communautés. Par exemple le terme 'aimer' a une connotation positive quelque soit les communautés. Les termes suivants sont alors analysés par rapport aux différentes communautés afin de rechercher ceux qui sont plus caractéristiques d'une communauté. Ici également, les approches traditionnelles sont mises en défaut et nous développons différentes mesures permettant de définir un score associé à chaque terme utilisé par une communauté. Les approches définies ont été retenues car elles ont prouvé qu'elles étaient très efficaces dans le domaine des tweets (e.g., tweets associés au domaine de la santé afin de suivre le développement d'épidémie). Lorsque les mots caractéristiques d'une communauté sont extraits, nous nous attachons alors à leur associer une polarité positive ou négative. L'objectif dans ce cadre est de pouvoir évaluer quelle est l'évolution d'une communauté par rapport à un terme donné. Par exemple, si nous considérons le terme "euthanasie", nous pouvons voir que pour le partie socialiste, lors des différents échanges de tweets exprimés au cours du temps entre février et mars 2012, ce terme a été souvent exprimé avec une connotation positive. L'analyse de la polarité des termes est actuellement principalement fondée sur les termes présents dans les tweets déjà porteurs d'opinion mais également en prenant en compte les différents mécanismes utilisés par les utilisateurs pour amplifier une opininion (e.g., smileys, alongement de lettres comme "supeeeeeer"). Pour qualifier l'opinion des termes ainsi que la polarité d'un tweet (positif vs negatif) de nouvelles méthodes ont ainsi été définies.

La dernière étape de PoloP consiste, après avoir effectué toutes les étapes d'apprentissage, à déterminer pour un nouveau tweet qui arrive à quelle communauté ce dernier doit être affecté. Pour cela, en utilisant de nouvelles approches fondées sur la distribution des termes d'une communauté nous affectons une probabilité d'appartenance à une communauté. Via cette dernière nous pouvons alors rechercher quelle est l'opinion exprimée par l'émetteur du tweet et l'application de techniques d'agrégation nous offre la possibilité de suivre en temps réel quelle est l'opinion d'une communauté au cours du temps.

Bien entendu, les différents mécanismes mis en oeuvre dans l'approche PoloP permettent d'offrir de nouvelles fonctionnalités telles que : le suivi sur une période donnée des tweets associés à un événement. Par exemple, les événements de Toulouse ont permis de montrer des évolutions sur les différentes expressions réalisées par le partis. Elles permettent également de trouver les évolutions de thèmes dans les échanges de tweets. En reprenant l'exemple de Toulouse, via notre approche nous avons pu mettre en évidence que différents courants de tweets ont montré qu'il y avaient de nombreux échanges sur les effets du Raid alors que d'autres échanges font ressortir qu'au même moment de nouveaux échanges apparaissent concernant l'islamisme.

Un aperçu scientifique de l'approche PoloP est disponible en téléchargement:
F. Bouillot, D. Ienco, S. Matwin, P. Poncelet, and M. Roche. Presidential Election 2012: How French politicians tweet? Rapport de recherche LIRMM : n°RR-12011, avril 2012
Communiqué de presse du projet envoyé le 18 avril 2012
F. Bouillot, P. Poncelet, M. Roche, D. Ienco, S. Matwin and E. Bigdeli. "French Presidential Elections: What are the Most Efficient Measures for Tweets?".  In Proceedings of PLEAD'12 Workshop (Politics, Elections and Data) - 21st ACM International Conference on Information and Knowledge Management, Maui Hawaii, USA, 2012.

Revue de Presse / Revue du Web :
La presse :

Des chercheurs montpellérains analysent les tweets des partis politiques, 24 avril 2012, Midi Libre
Du doigté pour faire campagne, 24 avril 2012, 20 minutes
Sur Twitter, des mots de campagne un peu différents, 27 avril 2012, AFP et des dizaines d'autres médias (Nouvel Observateur, Libération, La Libre, etc)


Remarques concernant l'article "Sur Twitter, des mots de campagne un peu différents" :
Les composantes Recherche et Enseignement :

Présidentielles 2012 : Des chercheurs du LIRMM analysent les tweets des partis politiques, LIRMM Montpellier
Dans les Labos et Instituts, Lettre hebdomadaire du CNRS
Des tweets et des hommes, IUT Béziers




Quelques références :

  Mise à jour le 2 mai 2012 - Site réalisé avec l'aide de Guénault P. pour le design