Classification de séquences

 

L’objectif de DNA_Classifier est  de catégoriser des séquences de données pour un patient en utilisant des motifs séquentiels (cf. Figure 1). A l’aide de DNA_Classifer il est possible de prédire avec une grande fiabilité le grade de cancer d’un patient (cf. Figure 2).

Patterns

Figure 1 - Visualisation de séquences

Ce prototype est basé sur les principes suivants. Pour chaque patient une puce ADN est obtenue et l’analyse de l’expression des gènes est utilisée pour analyser une maladie particulière. A partir de l’expression de gènes, il est possible de définir des séquences de données en fonction de la valeur de l’expression du gène. Par exemple, la séquence de données <(5) (8 9) (10)> pourrait s’interpréter de la manière suivante : le gène 5 a une valeur d’expression plus faible que 8 et 9 qui possèdent la même valeur d’expression qui est elle même inférieure à celle du gène 10. DNA_Classifier  propose trois manières différentes de classer les motifs séquentiels extraits de manière à faciliter la sélection des motifs séquentiels les plus caractéristiques (i.e. les motifs les plus caractéristiques d’une classe de tumeur). Chacune de ces manières est basée sur une approche fréquentielle.

Les résulats obenus avec DNA_Classifier ont donné lieu à une publication dans Journal of Biomedical Informatics en 2011.

Patterns classification

Figure 2- Résultat de classification de séquences

Dernière mise à jour le 20/01/2015