ANIMITEX

ANalyse d'IMages fondée sur des Informations TEXtuelles

Projet CNRS MASTODONS
Masses de Données Scientifiques


CNRS

Problématiques liées à l'analyse des données textuelles

Méthodologie et verrous scientifiques

Les Entités Spatiales (ES) exprimées dans un texte sont constituées d'au moins une Entité Nommée (EN) et d'un nombre variable d'indicateurs spatiaux, précisant leur localisation. Généralement, une ES se réfère à une EN de lieu dont la position est connue (par exemple, Selles-sur-Cher, au nord de Jacou, dans les zones montagneuses). Cinq types d'indications spatiales existent : l'orientation (au sud de), la distance (à 1 heure de marche de, à 20 km de), l'adjacence (près de, loin de, la périphérie de), l'inclusion (le quartier de, la frontière entre, le sommet de) et la figure géométrique qui définit l'union ou l'intersection liant au moins deux ES (entre A et B, le triangle A, B, C, à l'intersection de A et B, la frontière A-B, etc.).

L'extraction d'Entités Spatiales (ES) dans les documents repose sur le concept d'entité spatiale absolue caractérisant les informations propres à un lieu nommé (par exemple, la ville de Selles-sur-Cher) et le concept d'entité spatiale relative caractérisant des indications spatiales associées aux localisations (par exemple, près de Selles-sur-Cher). Outre l'extraction des ES, une tâche complémentaire consiste à détecter des liens sémantiques entre les descripteurs géospatiaux (par exemple, l'identification du lien Traverser(La Sauldre, Selles-sur-Cher) précisant que la rivière La Sauldre traverse la commune de Selles-sur-Cher).

Les équipes du LIRMM, TETIS et LIUPPA s'intéressent à la mise en place de méthodes d'extraction d'ES et de relations sémantiques entre ces dernières à partir de données textuelles (identification des entités spatiales absolues/relatives, désambiguïsation des ES par rapport aux EN de type Organisation, etc). La plupart de ces méthodes s'appuient sur la mise en place de règles linguistiques (patrons lexico-syntaxiques). Seulement, étant donné le gros volume de données, de telles méthodes possèdent des limites et ne sont pas exhaustives (en général elles retournent une précision élevée et un rappel faible). Dans le but de traiter une quantité importante de données, il semble essentiel de mettre en place des méthodes originales qui combinent des méthodes à base de règles et des approches de fouille de textes. Ce type de combinaison sera proposé dans le cadre du projet ANIMITEX.

Données

Dans un premier temps, nous nous intéresserons à des données textuelles issues du territoire côtier de Thau, déjà largement exploré par la communauté scientifique. Les données disponibles auprès de l'UMR TETIS, à la fois importantes et hétérogènes permettent de balayer les dispositifs numériques de cette région (journaux locaux, blogs citoyens ou d'associations, sites web des institutions locales, rapports, etc.) pour de premières extractions et traitements des informations géospatiales. Dans un second temps, nous développerons notre méthode sur un large spectre couvrant les régions des partenaires du projet (Strasbourg, Pau, Caen, Montpellier) offrant ainsi un corpus de données massives et hétérogènes (aussi bien dans leur syntaxe et leur sémantique).

Problématiques liées à l'analyse des données satellites

Méthodologie et verrous scientifiques

L'imagerie satellitaire de résolution métrique, voire sous-métrique, a élargi sensiblement le champ d'application de la télédétection au cours des dernières années. A titre d'exemple nous pouvons évoquer la détection de véhicules sur les voies de circulation, le calcul de la densité de plantations d'Eucalyptus à partir de la détection individuelle des arbres, ou encore l'évaluation rapide de dégâts provoqués par catastrophes naturelles ou humaines (tremblements de terre, accidents nucléaires, incendies ...). En revanche, la très haute résolution spatiale présente quelques inconvénients comme le champ de vision réduit (< 20 km), la faible richesse spectrale, le coût élevé pour l'utilisateur et la complexité technique liée au traitement des données. Il devient donc urgent de proposer des méthodes complémentaires à celles issues de la télédétection afin d'enrichir à faible « coût » humain les connaissances associées aux images satellites. Les verrous sont multiples : le premier est associé à l'analyse des données obtenues des documents eux-mêmes (comment valider les connaissances proposées sans réelle information géoréférencée ?) et le deuxième est associé à la mise en correspondance de ces connaissances ainsi obtenues aux données segmentées des images elles-mêmes. ANIMITEX se révèle ainsi être un véritable projet exploratoire permettant de mettre en commun les compétences des différents laboratoires concernés afin d'obtenir un environnement d'analyse performant de données complexes face auxquelles les deux communautés Fouille de données et Télédétection sont démunies si elles y travaillent seules.

Données

L'Equipex GEOSUD fait partie des lauréats de l'appel à projets 2010 "Equipement d'Excellence" de l'ANR dans le cadre du programme "Investissement d'Avenir". Il a pour objectif, avec l'aide de 11 partenaires (TETIS - laboratoire porteur, LIRMM, ESPACE-DEV, IGN, OSU OREME, HPC@LR, CINES, CETE sud-ouest, AFIGEO, GEOMATYS, OZAPP) de développer une infrastructure de données satellitaires au service de la communauté scientifique nationale « recherche sur l'environnement et les territoires ». Par sa couverture répétitive à différentes résolutions spatiales et spectrales, l'imagerie satellitaire est en effet un outil précieux, bien qu'encore relativement sous-utilisé, pour l'analyse multi-échelle des structures, du fonctionnement et de la dynamique des écosystèmes et des territoires. A travers le projet GEOSUD des images à très haute résolution seront disponibles. A partir de ces images, des recherches méthodologiques et thématiques vont être menées, portant notamment sur le traitement amont des volumes et flux de données satellitaires et sur des synthèses de méthodes par grands champs thématiques, contribuant à l'élaboration de produits nationaux d'intérêt pour la recherche et la gestion (cartographie des paysages, cartographie des corridors rivulaires, etc.). C'est dans ce contexte de nouveaux besoins d'analyse que le projet ANIMITEX se situe. Son objectif est de proposer de nouvelles approches de fouille de données adaptées aux gros volumes de données considérées, aux flux d'images et à l'information spatio-temporelle associée.

Principal verrou scientifique du projet ANIMITEX

Le principal verrou scientifique du projet est lié à la mise en correspondance des données textuelles avec les données satellites et plus particulièrement la géolocalisation des descripteurs. Pour cela, il sera nécessaire de déterminer les descripteurs linguistiques pertinents à partir des textes ou segments de texte, puis de les mettre en correspondance avec les données images. La première étape du projet (première année) consistera à mettre en ?uvre une indexation spatiale des images et des documents textuels selon les approches décrites dans les deux sections précédentes. La combinaison d'informations spatiales et textuelles a débuté entre différents chercheurs de Strasbourg (laboratoires ICube et LILPA). Ensuite, nous proposerons une approche visant l'identification des segments de textes du corpus spatialement pertinents pour une image donnée. Cette tâche reposera sur l'exploitation de coordonnées géospatiales via l'utilisation de ressources disponibles (gazetteers). Ce travail constituera une tâche difficile compte tenu de la masse de données textuelles disponibles. Nous proposerons des fonctions de calcul de score de pertinence afin d'ordonner les segments de textes. Cette tâche pourra être facilitée par l'apport de méthodes de fouille de données fondée sur les motifs séquentiels (travaux du GREYC, LIRMM, TETIS) permettant une extraction automatique d'information caractérisant les textes. Enfin, de nouveaux types de visualisations seront proposés (LIRMM). A partir de la deuxième année du projet, nous déterminerons les éléments plus précis dans les textes pour désambiguïser certaines situations. Par exemple, les données images permettent d'identifier assez aisément la présence de végétation mais ne permettent pas de distinguer leur type. Les informations extraites dans les textes associées aux données spatiales permettront de mettre en exergue ce type de connaissance.

Calendrier (2013-2014)

Le tableau ci-dessous indique le contenu du travail à mener selon les périodes mais également les compétences requises pour chaque sous-tâche (I : analyse d'Images, T : Traitement Automatique du Langage Naturel, F : Fouille de Données).


Celndrier ANIMITEX



Design : Thomas Heitz - Update : Mathieu Roche