Groupe de travail Données d'expression de gènes

Ceci est la page web du groupe de travail Montpelliérain sur l'analyse de données d'expression de gènes créé conjointement par l'équipe Méthodes et Algorithmes pour la Bioinformatique du LIRMM, et l'Unité Protéomique de l'INRA à Montpellier.

Les objectifs de ce groupe sont de présenter les travaux menés localement dans différents laboratoires montpellierains et de faire se rencontrer les chercheurs intéressés. Le format des réunions (exposés, lectures, etc.) est amené à varier d'une réunion à l'autre, ainsi que le lieu même de ces réunions. Elles se tiendront principalement au LIRMM et à l'INRA mais pourrons également être organisées dans d'autres laboratoires. Dans un premier temps nous essaierons de tenir une fréquence bi-mensuelle. Les dates, heures et lieux des réunions, ainsi que les résumés des exposés, seront annoncés par mail et archivés sur ce site.

Si vous êtes intéressé par ce groupe de travail et désirez être tenu au courant des réunions à venir, faites le nous savoir par mail : brehelin@lirmm.fr

Vendredi 20 Juin 2003, 11h00.

Lieu : Campus Agro-INRA, Coeur d'école, Salle 304
Orateur : Gilles Caraux (École d'Agro / LIRMM).
Titre : Étude de la distribution multimodale du pI (isoelectric points) des protéines.
Résumé : La valeur de pI d’une protéine joue un rôle déterminant dans le processus de sa migration dans un gel 2D. Aussi, on s’est intéressé à la répartition des protéines suivant la valeur de leur pI. Pour un ensemble de protéines, par exemple celles issues d’un même organisme, on remarque que la distribution des pI présente une forme fortement bimodale. Cette forme caractéristique et systématique est accompagnée de petits piques secondaires marquant des phénomènes locaux. Ceci pose la question de l’origine et de l’interprétation que l’on peut accorder à cette forme typique et organisée. On présentera les résultats d’une étude aboutissant à des conclusions surprenantes révélant la place de l’aléatoire dans ces distributions caractéristiques. Ces résultats originaux contredisent les arguments biologiques qui étaient avancés jusqu'alors.

Lundi 7 Juillet 2003, 10h30.

Lieu : LIRMM, Salle du conseil
Orateur : Olivier Martin (Unité protéomique INRA / LIRMM).
Titre : Mélange de modèles linéaires mixtes pour la classification de profils d'expression.
Résumé : Alors que la classification de données dans les expériences de transcriptome a été largement utilisée, peu d'approches prennent en compte la répétition des mesures pour un gène donné. Nous proposons une méthodologie pour la classification de profils d'expression issus de puces à ADN utilisant les informations des répétitions. Celles-ci nous renseignent sur la reproductibilité des mesures qui dépend souvent du niveau d'expression des gènes dans les cellules. Les modèles à effets aléatoires constituent un outil élaboré pour étudier la variabilité de données. Ils permettent par exemple de séparer la variation totale en une partie due à des effets aléatoires et une partie que l'on affecte aux erreurs. Dans ce cadre, nous interprétons les mesures associées à un gène comme les réalisations d'un modèle mixte témoignant de la variabilité expérimentale. Dans bien des domaines, les modèles de mélange se sont avérés être une approche intéressante pour les problèmes de classification. Supposer que les observations sont issues d'un mélange fini de lois de probabilité, gaussiennes par exemple, permet de choisir différents modèles et le nombre de classes à l'aide de critères probabilistes. Afin de prendre directement en compte les répétitions des expériences, nous introduisons une méthodologie où la classification est modélisée par un mélange de modèles linéaires mixtes. La problématique est alors d'estimer les paramètres d'un mélange de modèles mixtes où chaque composant correspond à un modèle linéaire mixte différent.

Lundi 15 Décembre 2003, 10h00.

Lieu : LIRMM, Salle du conseil
Orateur : Laurent Bréhélin (B&PMP / LIRMM).
Titre : Classification supervisée et détection d'outliers.
Résumé : Contrairement à la classification non supervisée, qui a été rendue très populaire dans le contexte des données d'expression de gènes grâce à des algorithmes tels que le clustering hiérarchique, la classification supervisée est nettement moins connue de la communauté biopuces. Elle dispose pourtant d'une littérature abondante en statistique et apprentissage automatique. Elle permet de traiter une catégorie différente de problèmes, pour lesquels les approches non supervisées sont inadéquates. En classification supervisée, on ne cherche pas à former des classes (elles sont déjà connues), mais à identifier la classe d'un nouvel exemple. Dans la première partie de cet exposé, je donnerai un aperçu de cette problématique en m'intéressant surtout à ses spécificités dans le cadre des données d'expression. La deuxième partie sera consacrée à la recherche d'outliers, c'est-à-dire de mesure atypiques. Je présenterai une méthode pour les identifier dans le cadre d'un algorithme de classification supervisée et montrerai sur quelques exemples que leur suppression permet d'améliorer les taux d'erreur de classification.