Introduction
Dans ce TP nous allons utiliser plusieurs logiciel d'alignement
multiple, autant les intégrer dans nos marque-pages tout de
suite. Ci-dessous les liens vers des sites qui proposent
l'utilisation en ligne des logiciels que nous allons utiliser, mais
en général plusieurs miroirs existent. Vous pouvez également tester d'autres logiciels d'alignement multiple de votre choix.
Dans les exercices, on vous demandera de comparer les résultats
fournis par ces différents logiciels. Organisez-vous en groupe de 2 ou
3 et répartissez vous les différents logiciels à tester, vous gagnerez
du temps.
D'autre part, vous pouvez installer le logiciel SEAVIEW
pour visualiser les résultats des programmes d'alignement
multiple. Installez la version Linux on PC.
I. Alignement de protéines avec de longs gaps
Nous allons étudier trois protéines : une protéine de
Escherichia coli
qui porte deux fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et deux
protéines de
Xylella fastidiosa qui portent chacune une de ces deux
fonctions :
>trpC, EC:4.1.1.48 et 5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
>EC:5.3.1.24, xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
>EC:4.1.1.48, xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
La protéine de E. coli possède la fonction enzymatique EC 4.1.1.48
au début et la fonction enzymatique EC 5.3.1.24 à la fin de sa séquence.
Nous allons tester si les programmes d'alignement multiple retrouvent bien
cette configuration. Alignez les trois séquences à l'aide de chacun des trois
programmes.
Quels sont parmi les programmes ceux qui construisent l'alignement multiple attendu ?
II. Étude d'une famille de protéine
Nous allons étudier une famille de protéines au sein d'un même génome,
avec un ensemble de séquences très conservées (duplication de gènes) et un gène
ayant une fonction proche, mais une séquence éloignée.
Retrouvez grâce à GQuery (NCBI) les séquences qui
portent les numéros d'accession : P0CX20 P32580 O13559 P40105 P0CX14 P53819 (entrez les 6 séquences d'un coup, rublique Protein (banque SwissProt)).
De quel organisme proviennent ces séquences ?
Quelle est la fonction de ces protéines ?
Mémorisez les séquences de ces protéines au format FASTA et gardez la liste
de résultats ouverte.
II-1. Alignement multiple
Effectuez un alignement multiple de ces séquences à l'aide d'au
moins trois des programmes.
Est-ce que les alignements trouvés sont identiques ?
Lesquels semblent les plus satisfaisants ?
II-2. Qualité de l'alignement
Le meilleur moyen d'estimer la qualité d'un alignement est de
vérifier si les régions connues pour avoir la même fonction
biologique sont bien alignées entre elles.
Le lien "Identify Conserved Domains with CD-Search" (partie "Analyze this sequence") situé à droite de la page résultat permet d'identifier les domaines protéiques connus des séquences sélectionnées.
Il est egalement possible de visualiser (shéma ou liste) pour chaque séquences (chaque entrée) ses domaines protéiques en utilisant les liens "Identify Conserved Domains" (partie "Analyze this sequence") ou "Conserved Domains (Conscise/Full)" (partie "Related information") qui se trouvent à droite de chaque entrée.
Quels sont les domaines communs aux différentes séquences ?
Quelles sont leurs positions (approximatives) sur ces séquences ?
Repérez ces domaines dans les alignements obtenus précédemment. Puis vérifiez
que les régions contenant ces domaines sont bien alignées les unes avec les
autres.
Quels sont les programmes d'alignement multiple qui alignent correctement les
domaines fonctionnels ?
III. Épissage alternatif
Le gène HRAS est un gène qui subit de l'épissage alternatif. Nous
allons tout d'abord aligner la séquence du gène avec chacun de ses
variants. Voici les séquences du
gène, du
variant 1, du
variant 2 et du
variant 3.
Utilisez le logiciel d'alignement 2 à 2 de votre choix pour les aligner.
Il est également possible de faire une alignement multiple du gène
et de ses variants en même temps.
Faites-le avec au moins trois programmes d'alignement (attention tous les
liens donnés en 1re partie ne marchent pas forcément en version ADN,
trouvez les versions adéquate en utilisant votre moteur de recherche
préféré).
Quels sont les programmes d'alignement multiple qui alignent
correctement les exons ?
IV. Une séquence mystère
Le but de cette partie est de vous faire faire l'analyse
bioinformatique d'une séquence mystère, pour trouver sa fonction.
Tout ce que vous savez, c'est que votre séquence est un fragment
d'ADN extrait du génome humain.
>séquence humaine mystère
gaattcgagatgcgaatgagcagcagccattttgatgttgtgagcatcggaacgtttctgcgtccgtacactgtccttttgttacttagataatggctaaggcaagcagtccgggccaca
ggagtcaaaggcttttcgccagctcctaaacgctggaagtgtaattttttttcttcttataaaattaaacaaacccttttagaaaggaacactcgctttatctcttcgaccgaatttact
atacatggatatatatatattatcttctgttcacagttaaaactaggaatagcatagtcataagttaacaccatcatgttgagaacgtcaacattgttcaccaagcgtgtccaaccaagc
ctattttctagaaacattcttagattgcaatccacagctgcaatccctaagactcaaaaaggtgtcatcttttatgagaataaggggaacctgcattacaaagatatccctgtccccgag
cctaagccaaatgaaattttaatcaacgttaaatattctggtgtatgtcacaccgatttacatgcttggcacggcgattggccattacctgttaaactaccattagtaggtggtcatgaa
ggtgctggtgtagttgtcaaactaggttccaatgtcaagggctggaaagtcggtgatttagcaggtatcaaatggctgaacggttcttgtatgacatgcgaattctgtgaatcaggtcat
gaatcaaattgtccagatgctgatttatctggttacactcatgatggttctttccaacaatttgcgaccgctgatgctattcaagccgccaaaattcaacagggtaccgacttggccgaa
gtagccccaatattatgtgctggtgttactgtatataaagcactaaaagaggcagacttgaaagctggtgactgggttgccatctctggtgctgcaggtggcttgggttccttggccgtt
caatatgcaactgcgatgggttacagagttctaggtattgatgcaggtgaggaaaaggaaaaacttttcaagaaattggggggtgaagtattcatcgactttactaaaacaaagaatatg
gtttctgacattcaagaagctaccaaaggtggccctcatggtgtcattaacgtttccgtttctgaagccgctatttctctatctacggaatatgttagaccatgtggtaccgtcgttttg
gttggtttgcccgctaacgcctacgttaaatcagaggtattctctcatgtggtgaagtccatcaatatcaagggttcttatgttggtaacagagctgatacgagagaagccttagacttc
tttagcagaggtttgatcaaatcaccaatcaaaattgttggattatctgaattaccaaaggtttatgacttgatggaaaagggcaagattttgggtagatacgtcgtcgatactagtaaa
taatagcgtgttacgcacccaaacttttatgaaagtctttgtttataatgatgaggtttataaatatatagtggagcaaagattaatcactaaatcaagaagcagtaccagtattttttc
tatatcaagtagtgataatggaaatagcccaaatttggcttccgtcgac
IV-1. Fouille dans les banques de données
La première étape est de chercher dans les banques de données de
séquences s'il existe des séquences connues similaires.
Faites un BLAST de cette séquence en restreignant la recherche aux données homo sapiens.
BLAST trouve-t-il des gènes similaires ?
Quelles sont les valeurs des E-values ?
Les seules séquences similaires trouvées par BLAST ne sont pas des
gènes, et les zones de similarité sont très restreintes, avec des E-values médiocres. Ce sont sans
doute des similarités dues au hasard. Cette recherche est donc
infructueuse.
Vous allez recommencer la recherche avec cette fois la séquence protéique
correspondant au fragment d'ADN.
- Ouvrez ORF finder. ORF finder
permet de traduire une séquence ADN en protéine, suivant les 6 cadres de lecture possibles.
- Collez la séquence mystère, avec l'entête >séquence humaine mystère
et lancez la requête
Vous obtenez 10 ORF répartis suivant les différents cadres de lecture. Le bon candidat est celui qui
donne la protéine la plus longue. En cliquant dessus, vous obtenez
la séquence protéique correspondante.
Créer un fichier avec la séquence protéique putative (ORF sélectionné) au format FASTA.
Faites une recherche avec BLASTP en utilisant la séquence protéique mystère (séquence protéique putative), prenez toujours
Homo sapiens comme organisme.
Ne vous occupez pas du
domaine putatif prédit, et récupérez les résultats de BLAST. Comparez
la qualité des alignements et les valeurs des E-values avec le
résultat obtenu sur la séquence nucléique.
À partir de l'intitulé des séquences proposées par BLAST, quelle
hypothèse peut-on faire sur la fonction de la protéine ?
Avec la séquence protéique putative, la recherche sous BLAST donne
des protéines partageant toute la même fonction. C'est encourageant.
On va donc conserver ces séquences.
Sauvegardez cinq séquences parmi les meilleures trouvées par BLAST
dans des fichiers séparés au format FASTA.
IV-2. Alignements 2 à 2
Les deux recherches sous BLAST conduisent à des résultats qui à
première vue peuvent sembler contradictoires : il n'existe
pas de séquence ADN humaine similaire, alors qu'il existe des protéines
présentant une bonne similarité avec la séquence traduite.
Nous allons voir pourquoi.
Comparez les séquences protéiques trouvées par BLAST avec la
protéine mystère avec un dot plot, un alignement global, puis un
alignement local.
À chaque fois, vous devez observer une similarité locale avec la
séquence mystère. BLAST ne s'est donc pas trompé en vous proposant
ces séquences.
Vous allez maintenant faire la comparaison entre les séquences ADN correspondantes.
- Récupérer la séquence ADN du gène de référence (RefSeq) de la sorbitol
dehydrogenase sur le site du NCBI : rubrique "Nucleotide", mots clés :"sorbitol
dehydrogenase" - "homo sapiens" - "mRNA" (en utilisant les bons champs).
- Sauvegarder la séquence ADN au format FASTA.
- Construiser le dot plot et/ou l'alignement de la séquence
mystère ADN avec le gène de la sorbitol hydrogenase.
Dans ce cas, il n'y a pas de similarité. Ce n'était donc pas une
erreur de BLAST. L'explication vient de la redondance du code
génétique : lors de la traduction, des triplets de nucléotides
différents peuvent correspondre à un même acide aminé. Il y a 64
triplets, pour seulement 20 acides aminés. De ce fait, des séquences
ADN différentes peuvent donner lieu à la même protéine. Il est donc
plus judicieux de faire une recherche sur les séquences protéiques,
quand celles-ci sont connues, que sur les séquences ADN.
IV-3. Alignement multiple et domaine actif
Pour voir si cette zone de similarité détectée dans les séquences
protéiques est commune à toutes les séquences, il faut construire un
alignement multiple. On va se servir de Clustal Omega.
Faites un alignement multiple des des 6 séquences protéiques (la sequence protéique mystère et les 5 séquences protéiques résultant de la recherche BLASTP)
Au bout de quelques secondes, vous devez obtenir un alignement
multiple. Les couleurs correspondent à la qualité de conservation des
colonnes. Dans l'alignement multiple, une zone est particulièrement
bien conservée, autour du motif GHE. C'est
certainement la signature d'un domaine actif dans la protéine.
IV-4. Domaine actif (à faire au TP 4)
Pour vérifiez l'hypothèse précédente, il faut construire un motif pour le domaine.
La manière la plus simple de représenter un motif est de construire
une expression régulière.
Le programme
ScanProsite permet ensuite de rechercher si un motif est présent dans une séquence protéique et/ou de localiser dans la banque de protéines
Swissprot
toutes les séquences contenant un motif spécifié par une expression
régulière. La syntaxe pour la description du motif est la suivante:
- Tous les éléments de l'expression sont séparés par des tirets
-.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parenthèses
X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des
crochets [AP].
Utilisez
ScanProsite pour rechercher le motif sur votre séquence mystère : choisissez l'option 1 ("Submit PROTEIN sequences to scan them against the PROSITE collection of motifs."), coller la protéine mystère et lancer la recherche.
ScanProsite trouve un motif (ADH_ZINC PS00059).
Si vous cliquez sur le nom du motif (PS00059), vous obtenez la description de ce motif ainsi que l'expression régulière associée à ce motif ("Consensus pattern").
Sauvegarder cette expression régulière et retourner à la page d'accueil de
ScanProsite afin de lancer une recherche pour trouver toutes les séquences
protéiques connues qui contiennent votre motif.
Choisissez l'option 2 ("Submit MOTIFS to scan them against a PROTEIN sequence database"), collez le motif trouvé et lancez la recherche.
Si le motif est bien caractéristique d'une fonction, toutes les
séquences trouvées par ScanProsite doivent avoir la même fonction
que les séquences trouvées par BLAST.
En guise de conclusion, la protéine que nous avons étudiée est une
enzyme sorbitol déshydrogénase, proche d'une alcool déshydrogénase.