formatdb
(remplacée par makeblastdb
pour les dernière version de Blast, fin 2012). Sur le site du NCBI, il est néanmoins possible de télécharger un certain nombre de bases de données pré-indexées.formatdb
, fourni dans le package blast2 (ou makeblastdb
en fonction de la version du package blast utilisé), permet de créer une telle base de données, à partir de séquences stockées au format FASTA.formatdb
:
formatdb -help
ou man formatdb
dans le terminal ou regarder le site web suivant : aide formatdb. (Information sur la commande makeblastdb
ici)
formatdb -i ecoli.nt -p F -n maBdBlastEcoli
-o T
: essayer avec et sans cette option.-o T
a été utilisée lors de la construction de la banque BLAST, il est possible de récupérer une séquence stockée dans une base de données BLAST (créée avec formatdb
ou makeblastdb
). Pour cela, il faut utiliser la commnade fastacmd
(remplacée par blastdbcmd
pour les dernière version de Blast, fin 2012). Le package blast2 fournit le programme fastacmd
(ou blastdbcmd
en fonction de la version du package blast utilisé): fastacmd -d base_de_donnée -s id_sequence
man fastacmd
dans le terminal ou regarder le site web suivant : aide fastacmd. (Information sur la commande blastdbcmd
ici)
fastacmd
, par exemple la séquence dont le numéro d'accession est AE000432.blastall
fourni dans le package blast2.blastall
ou man formatdb
dans le terminal ou regarder les sites web suivants : aide blastall 1 ou aide blastall 2.
blastall -p blastn -d maBdBlastEcoli -i test.txt -o test.out
blastall -p blastn -d nr -i K03455seqref.fas -e 0.15 -v 5000 -b 0
Cet exercice porte sur l'analyse de séquences d'enzymes de conversion de l'angiotensine I en angiotensin II, aussi appelées ACE. Ci-dessous, la séquence nucléotidique de l'ARNm de l'ACE de sangsue :
>Sangsue, ACE aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa