TP2 : Matrices, BLAST et FASTA

Flèche vers le haut

I. Matrices de scores

Copier la protéine PDC1_MAIZE, ILV1_TOBAC et ILVB_ARATH.
Les séquences ILV1_TOBAC et ILVB_ARATH sont de la famille des enzymes Thiamine Pyrophosphate (TPP). PDC1 est également de cette famille mais plus éloignée.
Effectuez un alignement global entre ILVB_ARATH et PDC1_MAIZE avec stretcher avec comme paramètres : matrice=EBLOSUM62, ouverture de gap=12, extension de gap=2.
Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles.
Pensez-vous que ce soit un bon alignement ?
Pensez-vous que la matrice BLOSUM62 soit adéquat dans ce cadre ?
Quelle matrice pourrait être meilleure ? Pourquoi ?
Refaites cet alignement avec une matrice que vous pensez être meilleure. (Les matrices disponibles dans EMBOSS se trouvent ici)
Qu'en pensez-vous ?
Essayons avec les matrices PAM.
Construisez les alignements avec EPAM30 et EPAM350.
Quel est le meilleur alignement ?
Était-ce prévisible ?

En confrontant les résultats de l'alignement avec les structures secondaires, on dispose d'un critère de décision supplémentaire pour juger de la validité d'un alignement.

Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'ont les deux séquences étudiées, les meilleurs résultats étant obtenus lorsque on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.

II. Prise en main de BLAST

Flèche vers le haut

II-1. Comparer une séquence d'ADN avec celles des bases de données

Vous allez utiliser BLAST pour comparer la séquence nucléotidique Ara-LacZ avec les séquences génomiques de la base de données RefSeq".
Lancer une recherche BLAST pour la séquence Ara-LacZ, avec comme base de donnée 'refseq_representative_genomes' et en vérifiant que la case 'Low complexity regions' est cochée. Attention, il faut lancer blastn et non megablast !
Vous voyez maintenant le résultat de la recherche BLAST. La page résultat est divisée en 3 parties comme nous l'avons vu en cours :
  • Une vue graphique générale des séquences résultats avec différentes couleur ;
  • ensuite la liste des séquences avec leur score et leur E-value ;
  • enfin, une vue plus détaillée, fournissant pour chaque séquence résultat, l'alignement avec notre séquence requête.
Flèche vers le haut

II-2. Déterminer l'identité des segments d'ADN

Utilisez votre curseur de souris pour vous placer sur une barre d'alignement colorée, vous verrez apparaître le nom de la séquence.
Si vous cliquez sur une barre, vous verrez apparaitre des informations supplémentaire : score et E-value de l'alignement, numéro d'accession de la séquence ainsi que lien sur l'alignement dans la 3e partie de la page.
Regardez les différentes séquences résultats obtenues et trouvez dans la liste le génome complet 'Escherichia coli str. K-12 substr. MG1655, complete genome' (1er résultat normalement).
Rendez-vous à son alignement avec notre séquences requête.
Quel est l'intervalle aligné de la séquence résultat (Sbjct) ?
Que pouvez-vous en déduire ?
Flèche vers le haut

II-3. Chercher dans une banque de données protéique

Aller sur la fiche Genbank correspondant à la séquence résultat et retrouvez le gène Ara C et son CDS.
Quel est le numéro d'accession de la séquence du génome complet ?
Quelle est la longueur du gène Ara C ?
Trouver la séquence protéique correspondante ? Quelle est la longueur de la protéine ?
Récupérer la séquence protéique du gène Ara C, puis lancer un blast protéique (BLAST). Vous devez comparer la séquence protéique avec la base de données UniProtKB/Swiss-Prot (case 'Low complexity regions' cochée).
Quelles sont les 4 1re séquences résultats ?
Quels sont leur score ?
Donnez un exemple de protéine non arabinose qui montre une homologie significative avec la protéine Ara C et qui a un score de 50 ou plus.
Recommencez cette recherche BLAST mais avec la base de données PDB cette fois.
La PDB contient seulement les séquences dont la structure est connue.
Est-ce que la structure d'Ara C est connue ?
Si oui, visualisez-là.
Commentez votre recherche de structure.
Flèche vers le haut

III. Une étude de cas utilisant BLAST

Cette partie est issue d'un TP de Jean-Stéphane Varré (LIFL, Lille) à voir ici.

Cet exercice porte sur l'analyse de séquences d'enzymes de conversion de l'angiotensine I en angiotensin II, aussi appelées ACE. Ci-dessous, la séquence nucléotidique de l'ARNm de l'ACE de sangsue :

>Sangsue, ACE
aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc
tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg
caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg
gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag
agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg
atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct
gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg
caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg
gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc
tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat
ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga
acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg
gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa
gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct
acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc
cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact
gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact
tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc
tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt
gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg
ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc
gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga
aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa
gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt
tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
     
Flèche vers le haut

III-1. Séquence requête ADN contre banque nucléique

Découverte

Faites tourner blastn avec les options par défaut sur cette séquence.
ATTENTION : bien vérifier que vous utilisez le programme blastn et non megablast.
Combien de séquences de la banque ressemblent à la notre et combien de hits BLAST trouve-t-il ?
Pourquoi le nombre de séquences trouvées et le nombre de hits est différents ?
Est-ce que les alignements obtenus semblent pertinents d'un point de vue biologique ?
Est-ce que les séquences trouvées font partie de la famille des ACE ?
La représentation graphique des résultats indique les régions de la séquence requête (échelle) qui s'alignent avec les séquences de la banque (rectangles colorés). Seuls les rectangles séparés par des hachures ou une ligne grise font partie de la même entrée de la banque.
Regardez la 1ere séquence du grand brochet (PREDICTED: Esox lucius angiotensin I converting enzyme (ace), transcript variant X2, mRNA)
Combien de régions communes entre la séquence de le grand brochet et celle de la sangsue sont représentées sur le graphique ?
Combien de régions sont réellement communes entre les deux séquences (voir les alignements) ?
Pourquoi y a-t-il une différence ?

La e-value

Quel est le score obtenu pour la séquence du grand brochet, avec les options par défaut ?
Quelle est la e-value correspondante ?
Comment varie la e-value en fonction du score (comparez pour différents alignements) ?
Faites maintenant tourner blastn en limitant les données de la banque aux entrées issues du grand brochet. Pour cela, choisissez la banque nr/nt. Un champ 'Organism' apparaît, commencez à taper le nom latin du grand brochet Esox lucius et un menu déroulant apparaîtra dans lequel vous pourrez le sélectionner.
Est-ce que l'on retrouve la séquence précédente en premier ?
Est-ce que le score d'alignement a changé ?
Comment a varié la e-value ?

Le filtre de faible complexité.

Les régions de faible complexité sont des parties de séquences composées de peu de lettres différentes. Par défaut, dans Blast, l'option "Low complexity regions" est active (cochée). Les régions de faible complexité présentes dans la séquence requête sont remplacées par des N dans le cas de l'ADN et par des X dans le cas des protéines. Ces régions ne sont donc pas alignées avec les séquences de la banque. Nous allons étudier l'intérêt de cette option.
Vous pouvez observer la région de faible complexité présente dans la séquence de sangsue en faisant un dotplot de la séquence contre elle-même à l'aide d'un des logiciels de dotplot que nous avons vus au TP précédent.
Que voyez-vous apparaître sur le dotplot en plus de la zone de faible complexité ?
Utilisez de nouveau blastn avec la séquence de sangsue contre les séquences du grand brochet, mais en décochant l'option "Low complexity regions".
Les résultats obtenus sont différents des précédents. Pourtant, la séquence requête et la banque sont les mêmes.
Flèche vers le haut

III-2. Séquence requête ADN contre banque protéique

Dans ce cas, la séquence requête est traduite à l'aveugle dans les six phases. Les six peptides obtenus sont alignés avec les protéines de la banque, y compris les codons stop qui sont remplacés par une étoile.

BlastX

Lancez un blastx avec la séquence de sangsue et l'option "Max target sequences" à 250.
Combien de hits sont trouvés ?
Comparez les résultats à ceux obtenues avec blastn (séquences, score, e-value, couverture, identité).
De quel organisme provient la première séquence ?
Trouvez la protéine correspondant à la séquence du grand brochet.
Combien y a-t-il de HSP sur la séquence protéique ? Est-ce le meme que celui de la séquence nucléique ? Si non, pourquoi ?
Flèche vers le haut

IV. FASTA et PSI-BLAST (Facultatif)

Dans cette exercice nous allons essayer de reconstituer la famille d'une protéine :

>Proteine esseulee
SCYNPCLPCQPCGPTPLANSCNEPCVRQCQSSNVVIEPSSVVVILPGPILSSFPQNTVVG
SSTSAAVGSILSCEGVPINSGCFDLSCITSRYCGSRCQPC
Flèche vers le haut

IV-1. FASTA

FASTA est « l'autre logiciel » de recherche de séquence dans une banque. Le programme FASTA est disponible à plusieurs endroits dont l'EBI. Le plus souvent, il n'est pas possible d'obtenir les résultats directement, ils sont envoyés par e-mail.
Familiarisez-vous avec l'interface de FASTA à l'EMBL en explorant les diverses possibilités de paramétrage
Comparez la séquence de protéine ci-dessus à la banque UniProtKB avec la matrice BLOSUM62.
Pensez-vous que la première séquence trouvée soit la séquence requête ci-dessus ? Si oui, pourquoi ?
À votre avis, quelle est la famille de protéine que nous cherchons à reconstituer ?
Visualisez les résultats de manière graphique en cliquant sur l'onglet 'Visual Output' et conserver cette page ouverte.
Pour information, la famille que nous cherchons contient 1352 séquences.
Flèche vers le haut

IV-2. PSI-BLAST

Peut-on trouver plus de protéine de la famille avec PSI-BLAST ?
Allez sur la page d'accueil de BLAST, puis sur celle de PSI-BLAST (blastp puis algorithme PSI-BLAST) et lancer la recherche de notre protéine sur la banque SWISS-PROT.
PSI-BLAST est itératif, vous lancez manuellement chaque nouvelle itération. Les nouvelles séquences 'sélectionnées' sont marquées par un icône new. La recherche converge lorsque, à une nouvelle étape, il n'y a plus de nouvelle séquences.
Arrivez-vous à obtenir plus de séquences que précédemment ?
Vous pouvez jouer sur les paramètres pour voir si vous en obtenez plus.
Rendez-vous sur la banque PFAM et cherchez la famille PF02422 ou Keratin.
Profitez en pour consulter la fiche de cette famille et vous familiariser avec la base PFAM.
Flèche vers le haut

V. Mise à l'épreuve de BLAST (Facultatif)

Le but de ce nouvel exercice est de mettre à l'épreuve l'heuristique de BLAST, sur la séquence test suivante.
Lancer un blast sur la séquence test et consultez le résultat de BLAST. La séquence dont le numéro d'accession est AF300821 apparait-elle parmi les séquences similaires trouvées par BLAST?
Regarder la fiche de cette séquence dans Genbank et sauvegarder la au format FASTA.
Faites ensuite un alignement local entre la séquence test et AF300821. Quel est le taux de similarité ? Est-ce que l'alignement est bon ?
Plusieurs explications sont possibles :
- soit l'alignement trouvé n'est pas significatif
- soit l'algorithme de BLAST est passé à coté de AF300821.
- ....
Testez la pertinence du score d'alignement avec PRSS.
Quelle est votre conclusion?