Introduction

Dans ce TP nous allons utiliser plusieurs logiciel d'alignement multiple, autant les intégrer dans nos marque-pages tout de suite. Ci-dessous les liens vers des sites qui proposent l'utilisation en ligne des logiciels que nous allons utiliser, mais en général plusieurs miroirs existent. Vous pouvez également tester d'autres logiciels d'alignement multiple de votre choix.

Dans les exercices, on vous demandera de comparer les résultats fournis par ces différents logiciels. Organisez-vous en groupe de 2 ou 3 et répartissez vous les différents logiciels à tester, vous gagnerez du temps.

D'autre part, vous pouvez installer le logiciel SEAVIEW pour visualiser les résultats des programmes d'alignement multiple. Installez la version Linux on PC.

I. Alignement de protéines avec de longs gaps

Nous allons étudier trois protéines : une protéine de Escherichia coli qui porte deux fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et deux protéines de Xylella fastidiosa qui portent chacune une de ces deux fonctions :


>trpC, EC:4.1.1.48 et 5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY

>EC:5.3.1.24, xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA

>EC:4.1.1.48, xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT

La protéine de E. coli possède la fonction enzymatique EC 4.1.1.48 au début et la fonction enzymatique EC 5.3.1.24 à la fin de sa séquence. Nous allons tester si les programmes d'alignement multiple retrouvent bien cette configuration. Alignez les trois séquences à l'aide de chacun des trois programmes.

Quels sont parmi les programmes ceux qui construisent l'alignement multiple attendu ?

II. Étude d'une famille de protéine

Nous allons étudier une famille de protéines au sein d'un même génome, avec un ensemble de séquences très conservées (duplication de gènes) et un gène ayant une fonction proche, mais une séquence éloignée.

Retrouvez grâce à GQuery (NCBI) les séquences qui portent les numéros d'accession : P0CX20 P32580 O13559 P40105 P0CX14 P53819 (entrez les 6 séquences d'un coup, rublique Protein (banque SwissProt)).

De quel organisme proviennent ces séquences ?
Quelle est la fonction de ces protéines ?

Mémorisez les séquences de ces protéines au format FASTA et gardez la liste de résultats ouverte.

II-1. Alignement multiple

Effectuez un alignement multiple de ces séquences à l'aide d'au moins trois des programmes.

Est-ce que les alignements trouvés sont identiques ?

Lesquels semblent les plus satisfaisants ?

II-2. Qualité de l'alignement

Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.
Le lien "Identify Conserved Domains with CD-Search" (partie "Analyze this sequence") situé à droite de la page résultat permet d'identifier les domaines protéiques connus des séquences sélectionnées. Il est egalement possible de visualiser (shéma ou liste) pour chaque séquences (chaque entrée) ses domaines protéiques en utilisant les liens "Identify Conserved Domains" (partie "Analyze this sequence") ou "Conserved Domains (Conscise/Full)" (partie "Related information") qui se trouvent à droite de chaque entrée.

Quels sont les domaines communs aux différentes séquences ?
Quelles sont leurs positions (approximatives) sur ces séquences ?

Repérez ces domaines dans les alignements obtenus précédemment. Puis vérifiez que les régions contenant ces domaines sont bien alignées les unes avec les autres.

Quels sont les programmes d'alignement multiple qui alignent correctement les domaines fonctionnels ?

III. Épissage alternatif

Le gène HRAS est un gène qui subit de l'épissage alternatif. Nous allons tout d'abord aligner la séquence du gène avec chacun de ses variants. Voici les séquences du gène, du variant 1, du variant 2 et du variant 3.

Utilisez le logiciel d'alignement 2 à 2 de votre choix pour les aligner.

Il est également possible de faire une alignement multiple du gène et de ses variants en même temps.

Faites-le avec au moins trois programmes d'alignement (attention tous les liens donnés en 1re partie ne marchent pas forcément en version ADN, trouvez les versions adéquate en utilisant votre moteur de recherche préféré).

Quels sont les programmes d'alignement multiple qui alignent correctement les exons ?

IV. Une séquence mystère

Le but de cette partie est de vous faire faire l'analyse bioinformatique d'une séquence mystère, pour trouver sa fonction. Tout ce que vous savez, c'est que votre séquence est un fragment d'ADN extrait du génome humain.

>séquence humaine mystère
gaattcgagatgcgaatgagcagcagccattttgatgttgtgagcatcggaacgtttctgcgtccgtacactgtccttttgttacttagataatggctaaggcaagcagtccgggccaca
ggagtcaaaggcttttcgccagctcctaaacgctggaagtgtaattttttttcttcttataaaattaaacaaacccttttagaaaggaacactcgctttatctcttcgaccgaatttact
atacatggatatatatatattatcttctgttcacagttaaaactaggaatagcatagtcataagttaacaccatcatgttgagaacgtcaacattgttcaccaagcgtgtccaaccaagc
ctattttctagaaacattcttagattgcaatccacagctgcaatccctaagactcaaaaaggtgtcatcttttatgagaataaggggaacctgcattacaaagatatccctgtccccgag
cctaagccaaatgaaattttaatcaacgttaaatattctggtgtatgtcacaccgatttacatgcttggcacggcgattggccattacctgttaaactaccattagtaggtggtcatgaa
ggtgctggtgtagttgtcaaactaggttccaatgtcaagggctggaaagtcggtgatttagcaggtatcaaatggctgaacggttcttgtatgacatgcgaattctgtgaatcaggtcat
gaatcaaattgtccagatgctgatttatctggttacactcatgatggttctttccaacaatttgcgaccgctgatgctattcaagccgccaaaattcaacagggtaccgacttggccgaa
gtagccccaatattatgtgctggtgttactgtatataaagcactaaaagaggcagacttgaaagctggtgactgggttgccatctctggtgctgcaggtggcttgggttccttggccgtt
caatatgcaactgcgatgggttacagagttctaggtattgatgcaggtgaggaaaaggaaaaacttttcaagaaattggggggtgaagtattcatcgactttactaaaacaaagaatatg
gtttctgacattcaagaagctaccaaaggtggccctcatggtgtcattaacgtttccgtttctgaagccgctatttctctatctacggaatatgttagaccatgtggtaccgtcgttttg
gttggtttgcccgctaacgcctacgttaaatcagaggtattctctcatgtggtgaagtccatcaatatcaagggttcttatgttggtaacagagctgatacgagagaagccttagacttc
tttagcagaggtttgatcaaatcaccaatcaaaattgttggattatctgaattaccaaaggtttatgacttgatggaaaagggcaagattttgggtagatacgtcgtcgatactagtaaa
taatagcgtgttacgcacccaaacttttatgaaagtctttgtttataatgatgaggtttataaatatatagtggagcaaagattaatcactaaatcaagaagcagtaccagtattttttc
tatatcaagtagtgataatggaaatagcccaaatttggcttccgtcgac

IV-1. Fouille dans les banques de données

La première étape est de chercher dans les banques de données de séquences s'il existe des séquences connues similaires.

Faites un BLAST de cette séquence en restreignant la recherche aux données homo sapiens.

BLAST trouve-t-il des gènes similaires ?
Quelles sont les valeurs des E-values ?

Les seules séquences similaires trouvées par BLAST ne sont pas des gènes, et les zones de similarité sont très restreintes, avec des E-values médiocres. Ce sont sans doute des similarités dues au hasard. Cette recherche est donc infructueuse.

Vous allez recommencer la recherche avec cette fois la séquence protéique correspondant au fragment d'ADN.

Ouvrez ORF finder. ORF finder permet de traduire une séquence ADN en protéine, suivant les 6 cadres de lecture possibles.
Collez la séquence mystère, avec l'entête >séquence humaine mystère et lancez la requête

Vous obtenez 10 ORF répartis suivant les différents cadres de lecture. Le bon candidat est celui qui donne la protéine la plus longue. En cliquant dessus, vous obtenez la séquence protéique correspondante.

Créer un fichier avec la séquence protéique putative (ORF sélectionné) au format FASTA.

Faites une recherche avec BLASTP en utilisant la séquence protéique mystère (séquence protéique putative), prenez toujours Homo sapiens comme organisme.
Ne vous occupez pas du domaine putatif prédit, et récupérez les résultats de BLAST. Comparez la qualité des alignements et les valeurs des E-values avec le résultat obtenu sur la séquence nucléique.

À partir de l'intitulé des séquences proposées par BLAST, quelle hypothèse peut-on faire sur la fonction de la protéine ?

Avec la séquence protéique putative, la recherche sous BLAST donne des protéines partageant toute la même fonction. C'est encourageant. On va donc conserver ces séquences.

Sauvegardez cinq séquences parmi les meilleures trouvées par BLAST dans des fichiers séparés au format FASTA.

IV-2. Alignements 2 à 2

Les deux recherches sous BLAST conduisent à des résultats qui à première vue peuvent sembler contradictoires : il n'existe pas de séquence ADN humaine similaire, alors qu'il existe des protéines présentant une bonne similarité avec la séquence traduite. Nous allons voir pourquoi.

Comparez les séquences protéiques trouvées par BLAST avec la protéine mystère avec un dot plot, un alignement global, puis un alignement local.

À chaque fois, vous devez observer une similarité locale avec la séquence mystère. BLAST ne s'est donc pas trompé en vous proposant ces séquences.

Vous allez maintenant faire la comparaison entre les séquences ADN correspondantes.

Récupérer la séquence ADN du gène de référence (RefSeq) de la sorbitol dehydrogenase sur le site du NCBI : rubrique "Nucleotide", mots clés :"sorbitol dehydrogenase" - "homo sapiens" - "mRNA" (en utilisant les bons champs).
Sauvegarder la séquence ADN au format FASTA.
Construiser le dot plot et/ou l'alignement de la séquence mystère ADN avec le gène de la sorbitol hydrogenase.

Dans ce cas, il n'y a pas de similarité. Ce n'était donc pas une erreur de BLAST. L'explication vient de la redondance du code génétique : lors de la traduction, des triplets de nucléotides différents peuvent correspondre à un même acide aminé. Il y a 64 triplets, pour seulement 20 acides aminés. De ce fait, des séquences ADN différentes peuvent donner lieu à la même protéine. Il est donc plus judicieux de faire une recherche sur les séquences protéiques, quand celles-ci sont connues, que sur les séquences ADN.

IV-3. Alignement multiple et domaine actif

Pour voir si cette zone de similarité détectée dans les séquences protéiques est commune à toutes les séquences, il faut construire un alignement multiple. On va se servir de Clustal Omega.

Faites un alignement multiple des des 6 séquences protéiques (la sequence protéique mystère et les 5 séquences protéiques résultant de la recherche BLASTP)

Au bout de quelques secondes, vous devez obtenir un alignement multiple. Les couleurs correspondent à la qualité de conservation des colonnes. Dans l'alignement multiple, une zone est particulièrement bien conservée, autour du motif GHE. C'est certainement la signature d'un domaine actif dans la protéine.

IV-4. Domaine actif (à faire au TP 4)

Pour vérifiez l'hypothèse précédente, il faut construire un motif pour le domaine. La manière la plus simple de représenter un motif est de construire une expression régulière. Le programme ScanProsite permet ensuite de rechercher si un motif est présent dans une séquence protéique et/ou de localiser dans la banque de protéines Swissprot toutes les séquences contenant un motif spécifié par une expression régulière. La syntaxe pour la description du motif est la suivante:

- Tous les éléments de l'expression sont séparés par des tirets -.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parenthèses X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [AP].

Utilisez ScanProsite pour rechercher le motif sur votre séquence mystère : choisissez l'option 1 ("Submit PROTEIN sequences to scan them against the PROSITE collection of motifs."), coller la protéine mystère et lancer la recherche.

ScanProsite trouve un motif (ADH_ZINC PS00059).
Si vous cliquez sur le nom du motif (PS00059), vous obtenez la description de ce motif ainsi que l'expression régulière associée à ce motif ("Consensus pattern").

Sauvegarder cette expression régulière et retourner à la page d'accueil de ScanProsite afin de lancer une recherche pour trouver toutes les séquences protéiques connues qui contiennent votre motif.
Choisissez l'option 2 ("Submit MOTIFS to scan them against a PROTEIN sequence database"), collez le motif trouvé et lancez la recherche.

Si le motif est bien caractéristique d'une fonction, toutes les séquences trouvées par ScanProsite doivent avoir la même fonction que les séquences trouvées par BLAST.

En guise de conclusion, la protéine que nous avons étudiée est une enzyme sorbitol déshydrogénase, proche d'une alcool déshydrogénase.

TP3 : Alignement multiple global