Jeux de données de référence

Ces jeux de données du transcriptome humain sont des données SAGE issues de différents types de tissus, cancéreux ou non. Ils ont été compilés par Olivier Gandrillon, Sylvain Blachon, et Céline Robardet. Ils sont disponibles au format texte, compressé (avec zip), expériences en lignes et gènes en colonnes. Il y a deux types de données. Le premier type porte sur un transcriptome minimal (822 gènes), le second sur un transcriptome étendu (27679 gènes). Les deux transcriptomes sont accompagnés d'un fichier .xls regroupant des informations sur les différentes situations biologiques :

NumLib: numéro de la librairie dans la matrice
LibraryName: nom de la librairie sur le site du NCBI
Cancer ?: indique si la librairie porte sur un tissus cancéreux ou non
Organ: organe d'où proviennent les cellules étudiées
Bulk/Cell line: indique si la librairie a été réalisée sur un morceau de tissu ou à partir d'une lignée cellulaire (cellules en culture => a priori plus homogène mais a aussi subi des altérations dues précisément aux conditions particulières ex vivo)
Cancer type: indique le type de cancer
Normal Cell type: indique le type de cellule (grossier)
tags: nombre de tags séquencés dans la librairie


"On a découpé en classes cancer/non cancer pour faire éventuellement du supervisé. A priori, ce qui est d'abord intéressant c'est de retrouver les différents types de tissus, puis de distinguer cancer/non cancer au sein d'un type cellulaire, puis éventuellement de retrouver des caractéristiques communes à tous les cancers (mais c'est probablement une vision trop idyllique du cancer que de penser en terme aussi généraux !)". Olivier Gandrillon.

Transcriptome minimal : informations.xls

Ce jeu de données répertorie l'expression de 822 gènes appartenant au «transcriptome minimal » dans 74 situations biologiques. Il est disponible dans sa version initiale (données numériques continues) et dans trois versions binarisées. Pour plus de détails sur la construction de ce jeu de données, ainsi que sur les premières règles extraites voir Becquet, C., Blachon, S., Jeudy, B., Boulicaut, J.F. et Gandrillon, O. (2002) Strong association rule mining for large gene expression data analysis: a case study on human SAGE data. Genome Biology 3(12):research0067.1-0067.16

Transcriptome étendu : informations.xls

Pour plus d'informations sur ces jeux de données, voir Sylvain Blachon, Céline Robardet, Jean François Boulicaut and Olivier Gandrillon. Extraction de régularités dans les données d'expression SAGE humaines. Journée "Informatique pour l'analyse du transcriptome", Campus de la Doua 14 Mai 2003.