Cet exercice porte sur l'analyse de séquences d'enzymes de
conversion de l'angiotensine I en angiotensin II, aussi appelées
ACE. Ci-dessous, la séquence nucléotidique de l'ARNm de l'ACE de
sangsue :
>Sangsue, ACE
aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc
tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg
caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg
gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag
agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg
atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct
gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg
caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg
gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc
tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat
ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga
acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg
gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa
gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct
acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc
cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact
gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact
tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc
tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt
gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg
ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc
gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga
aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa
gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt
tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
III-1. Séquence requête ADN contre banque nucléique
Découverte
Faites tourner
blastn
avec les options par défaut sur cette séquence.
ATTENTION : bien vérifier que vous utilisez le programme
blastn et non
megablast.
Combien de séquences de la banque ressemblent à la notre et combien de hits BLAST trouve-t-il ?
Pourquoi le nombre de séquences trouvées et le nombre de hits est différents ?
Est-ce que les alignements obtenus semblent
pertinents d'un point de vue biologique ?
Est-ce que les séquences
trouvées font partie de la famille des ACE ?
La représentation graphique des résultats
indique les régions de la séquence requête (échelle) qui s'alignent
avec les séquences de la banque (rectangles colorés). Seuls les
rectangles séparés par des hachures ou une ligne grise font partie de la même entrée
de la banque.
Regardez la 1ere séquence du grand brochet (PREDICTED: Esox lucius angiotensin I converting enzyme (ace), transcript variant X2, mRNA)
Combien de régions communes entre la séquence de le grand brochet et celle de la sangsue
sont représentées sur le graphique ?
Combien de régions sont réellement communes entre les deux séquences (voir les
alignements) ?
Pourquoi y a-t-il une différence ?
La e-value
Quel est le score obtenu pour la séquence du grand brochet, avec les
options par défaut ?
Quelle est la e-value correspondante ?
Comment varie la e-value en fonction du score (comparez pour
différents alignements) ?
Faites maintenant tourner
blastn en limitant les données de la
banque aux entrées issues du grand brochet. Pour cela, choisissez la banque nr/nt. Un champ 'Organism' apparaît, commencez à taper le nom latin du grand brochet
Esox lucius et un menu déroulant apparaîtra dans lequel vous pourrez le sélectionner.
Est-ce que l'on retrouve la séquence précédente en premier ?
Est-ce
que le score d'alignement a changé ?
Comment a varié la
e-value ?
Le filtre de faible complexité.
Les régions de faible complexité sont des parties de séquences
composées de peu de lettres différentes. Par défaut, dans
Blast, l'option "Low complexity regions" est active (cochée). Les
régions de faible complexité présentes dans la séquence requête
sont remplacées par des N dans le cas de l'ADN et par des X
dans le cas des protéines. Ces régions ne sont donc pas
alignées avec les séquences de la banque. Nous allons étudier
l'intérêt de cette option.
Vous pouvez observer la région de faible complexité présente dans la séquence de
sangsue en faisant un dotplot de la séquence contre elle-même à l'aide d'un des logiciels de dotplot que nous avons vus au TP précédent.
Que voyez-vous apparaître sur le dotplot en plus de la zone de faible complexité ?
Utilisez de nouveau
blastn avec la séquence de sangsue contre les séquences
du grand brochet, mais en décochant l'option "Low complexity regions".
Les résultats obtenus
sont différents des précédents. Pourtant, la séquence requête et la
banque sont les mêmes.
III-2. Séquence requête ADN contre banque protéique
Dans ce cas, la séquence requête est traduite à l'aveugle dans les six phases.
Les six peptides obtenus sont alignés avec les protéines de la banque, y compris
les codons stop qui sont remplacés par une étoile.
BlastX
Lancez un
blastx
avec la séquence de sangsue et l'option "Max target sequences" à 250.
Combien de hits sont trouvés ?
Comparez les résultats à ceux obtenues avec blastn (séquences, score, e-value, couverture, identité).
De quel organisme provient la première séquence ?
Trouvez la protéine correspondant à la séquence du grand brochet.
Combien y a-t-il de HSP sur la séquence protéique ?
Est-ce le meme que celui de la séquence nucléique ? Si non, pourquoi ?