Action Spécifique STIC-CNRS :
Apprentissage statistique pour l'analyse du transcriptome

Animateurs : Florence d'Alché-Buc, Laurent Bréhélin et Jean-Philippe Vert

Les bio-puces fournissent des données quantitatives sur l'expression de génomes entiers, et ouvrent la voie à l'exploration et la modélisation de systèmes biologiques complexes. Cette Action Spécifique vise à utiliser les approches d'apprentissage statistique pour développer des outils informatiques répondant à deux problèmatiques importantes en analyse de données du transcriptome:


Thématique scientifique

Alors que toutes les cellules d'un organisme partagent les mêmes données génétiques, la nature et les quantités de protéines produites par une cellule peuvent varier fortement d'une cellule à l'autre ou au cours de la vie d'une même cellule. La quantité de protéines produites par une cellule à un instant donné définit le niveau d'expression du gène qui code pour cette protéine. Ce sont ces différences de niveaux d'expression qui sont par exemple responsables de la réponse de la cellule à des signaux extérieurs. La raison principale de ces différences tient au mécanisme de régulation : une protéine dans une cellule peut influencer (augmenter ou diminuer) la production d'une autre protéine par cette cellule. On dit alors que les gènes codant pour les deux protéines en question interagissent. Les phénomènes de régulation prennent la forme de différents motifs : «cascades» mettant en jeu un nombre important de protéines, boucles «feedforward» impliquant de la redondance, etc... Le décryptage de ces réseaux de régulation est l'étape clef pour la compréhension des processus cellulaires complexes qui régissent la vie des organismes vivants.

Des technologies récentes, telles que les puces ADN -- ou biopuces --, permettent de mesurer simultanément le niveau d'expression de plusieurs milliers de gènes dans une cellule ou un tissu à un moment donné. Ces mesures peuvent être répétées sur différentes cellules ou différents tissus (cancéreux ou non cancéreux par exemple), dans différents organismes ou à différents moments de la vie d'un même organisme (par exemple avant et après un traitement médical, à différents moments de la vie d'une cellule, etc.). Ces données d'expression de gènes constituent alors un matériel unique pour la compréhension des mécanismes de régulation cellulaires.

D'un point de vue informatique et mathématique, l'analyse de ces données est un véritable défi. Le but ultime de la reconstruction d'un réseau de régulation passe par la résolution de diverses problématiques telles que l'identification des gènes impliqués dans la réponse d'un organisme à un signal extérieur (un traitement, par exemple), ou la recherche de gènes co-exprimés qui présentent des profils d'expression similaires lors des différentes mesures. Dans cette AS, nous nous focaliserons sur deux types de problèmes pour lesquels nous développerons des méthodes d'apprentissage statistique : la classification de tissus, et la reconstruction de réseaux de régulation génétiques.

Participants

Cette AS est organisée autour de chercheurs spécialisés en apprentissage statistique appliqué à la bioinformatique, en analyse de données de biopuces, et en reconstruction de réseaux génétiques.

Publications liées au sujet

J.-P. Vert et M. Kanehisa, Extracting active pathways from microarray data, Bioinformatics 2003 (en presse), présenté à European Conference on Computational Biology 2003.

B.-E. Perrin, L. Ralaivola, A. Mazurie, S. Bottani, J. Mallet et F. d'Alché-Buc, Gene networks inference from dynamic Bayesian Networks, Bioinformatics 2003 (en presse), présenté à European Conference on Computational Biology 2003.

F. d'Alché-Buc, P.-J. Lahaye, A. Mazurie, S. Bottani, Artificial recurrent neural networks for modelling gene regulatory networks form data, Computational paradigms for Bioinformatics, U. Seiffert, Springer Verlag, à paraître en 2004.

L. Bréhélin et F. Major, Outlier detection in gene expression data improves classification accuracy, soumis.