Mastodons

Résultats scientifiques

Mastodons : Scientific Data Management Séquençage et phénotypage à haut débit produisent des quantité gigantesques de données digitales en biologie et agronomie : pour les analyser, notre projet conçoit des solutions informatiques élaborées et passant à l'échelle.

Nous avons proposé une nouvelle méthode de recommandation centralisée [Servajean et al. 2013] et distribuée [Servajean et al. 2013] pour retrouver des données transformées à partir d’une requête à mots clés, en prenant compte la diversification des profils de utilisateurs qui partagent ces données. Thèse Servajean (co-financé par le labex NUMEV).


Pour l'analyse de données de phenotypage, nous avons proposé une méthode qui détecte automatiquement des données potentiellement erronées pour prévenir les experts avant le processus d'analyse de l'existence possible de telles courbes, sur ces deux types d'anomalies. Pour cela, nous avons adapté une mesure de distance basée sur le "Dynamic Time Warping" permettant de comparer les courbes de croissance des plantes malgré le fait qu'aucunes d'entre elles ne partagent des pas de temps (par nature de la plateforme, chaque plante est mesurée de manière séparée des autres dans le temp).

Concernant l’analyse de données après nettoyage, nous avons testé plusieurs techniques de clustering des séries temporelles (e.g. DBSCAN, HAC) pour comprendre le comportement de croissance de plantes dans différents environnements (par exemple sous stress hydrique). Le clustering ascendant hiérarchique, utilisant un critère de Ward, a permis l'obtention des résultats les plus convaincants. Ces résultats permettent de grouper des génotypes en fonction de leur réponse à différentes caractéristiques environnementale. Les experts en agronomie du LEPSE, partenaires de ce travail, ont confirmé l'aspect complémentaire de ce travail avec leurs propres travaux et ont souligné l'ouverture offerte par ces résultats pour de nouvelles études. Les résultats de ce travail sont décrits dans le rapport de Master d'Irina Alles [Alles, 2013]

Nos équipes ont effectué de analyses de données de phénotypes moléculaires (ARNs) ou macroscopiques des plantes à l'aide de workflows spécifiques. L'indexation des sous mots de longueur k permet d'évaluer localement la couverture d'un SHD durant les analyses. Nous avons développé une librairie d'indexation compressé capable de gérer 500 Go de reads [Valimaki, Rivals 2013]. Cette thématique est intégré au nouveau projet ANR Colib'read (2013-2016).

Nous exploitons ces index dans nos programmes bioinformatiques. Pour analyser de lectures d'ARN, nous avons conçu et implanté le programme CRAC [Philippe et al. 2013]. Comparativement aux autres logiciels, CRAC offre la capacité de prédire des mutations, des formes d'épissage, et des ARN de fusion (qui servent de marqueurs diagnostic en cancérologie) en une seule analyse.
Le projet co-organise la journée "Indexing big scientific data" à Paris avec 6 orateurs et a en 2013 invité 12 orateurs pour des séminaires. Pour interagir plus avec les producteurs de données, nous avons aussi lancé un appel à collaboration avec les plateformes du PIA France Génomique (projets avec CEA, I. Pasteur).

Fait marquant: La revue Nature a écrit une news sur CRAC, comme étant l'article le plus lu en avril 2013 (12500 vues fin 2013).