HMSN204 - Banques de données biologiques

TD/TP sur les banques et les formats de données biologiques

I. Les banques de données PDB et PFAM

Aller sur la banque PDB (portail du Worldwide PDB).
Quelle est la spécialité de PDB ?
Faire une recherche avec le mot "1o1i".
De quelle molécule s'agit-il ?
En quelle année a été déposée cette séquence ?
Par quelle méthode a-t-elle été déterminée ?
De quelle organisme provient-elle ?
Plusieurs logiciel en ligne sont disponibles pour visualiser la protéine en 3D.
Afficher un fichier au format PDB.
Etudier les mots-clés utilisés dans les flatfiles de la PDB.
Aller sur la banque PFam.
PFam est une banque de quel type ?
Quelle est la version actuelle de PFam ?
Combien de familles contient-elle ?
Dans l'onglet "Search", faites une recherche avec le mot clé "hemoglobin". Combien de résultats trouvez-vous ?
Explorer la fiche PFam de la famille PF00042 : alignement, organisation des domaines, arbre phylogénétique, lien vers les autres banques ...
Flèche vers le haut

II. Interrogation de banques de données via GQuerry

Dans cet exercice, nous allons utiliser GQuerry (anciennement Entrez) qui est l'interface d'interrogation développée au NCBI. Elle a l'avantage de pouvoir faire des requêtes simples, mais aussi des requêtes complexes quand on sait l'utiliser (aide pour l'utilisation de GQuerry).

La page d'accueil propose d'interroger en même temps toutes les banques accessibles via GQuerry. Il est possible d'accéder à la liste des entrées qui répondent à une requête en cliquant sur le lien du nombre d'entrées trouvées. En cliquant sur le nom d'une banque, on accède alors à l'interface d'interrogation classique (simple) qui comprend une zone de saisie des critères de recherche (zone texte) et, juste en dessous sous forme d'onglets, des liens vers des fonctionnalités du système d'interrogation.
Le lien "Advanced" affiche le formulaire de requêtes avancé ainsi qu'un historique des requêtes effectuées depuis le début de votre session sur la banque, c'est-à-dire depuis votre connection à cette banque.

II-1. Recherche simple

Pour commencer, nous allons interroger la banque appelée "Nucleotide". Sur la première page de cette banque, il est indiqué d'où proviennent ses données.
Quelles sont les banques qui composent la banque "Nucleotide" ?
Recherchez toutes les séquences humaines contenues dans cette banque.
Combien d'entrées sont trouvées ?
Les entrées obtenues sont présentées sous la forme d'une liste. La ligne de description de l'entrée est indiquée.
Que contiennent les entrées présentes sur la première page ?
En cliquant sur le lien d'une entrée, on obtient l'entrée entière au format GenBank.
Est-ce que vous trouvez des entrées en saisissant l'expression "homo spaiens" qui contient une erreur de frappe (sans préciser 'organism' comme champ) ?
Faire la même requête en ajoutant le nom de champ [orgn]. Trouvez-vous le même résultat que précédemment ?
Malheureusement, quelques entrées contiennent une erreur de frappe sur l'expression "homo sapiens". Vous constaterez que l'erreur n'apparaît pas dans la ligne OS qui est spécifique au nom d'organisme. Il est tout-de-même vérifié que l'organisme indiqué existe bien. Par contre, les commentaires librement saisis par les laboratoires qui soumettent les séquences ne peuvent pas être vérifiés. Il s'y glisse donc des erreurs de ce type. L'utilisation des champs réduit les erreurs possibles.
Flèche vers le haut

II-2. Utilisation d'opérateurs booléens

Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens :
  • AND : les deux termes sont tous les deux dans les entrées.
  • OR : au moins un des deux termes est dans l'entrée.
  • NOT : le premier terme doit être présent dans les entrées et les entrées qui contiennent le deuxième sont exclues.
Note : dans GQuerry, les opérateurs doivent obligatoirement être saisis en majuscules pour être reconnus.
Pour voir l'influence des opérateurs, nous allons effectuez, successivement, quatre requêtes :
  • trinucleotide repeat
  • trinucleotide AND repeat
  • trinucleotide OR repeat
  • trinucleotide NOT repeat
Pour chaque requête, notez le nombre d'entrées trouvées et consultez une ou deux des entrées trouvées (essayez de ne pas prendre une entrée de génome car elles sont très grandes et donc longues à afficher). Recherchez dans ces entrées le mot "trinucleotide" et le mot "repeat" à l'aide du menu "Edition->Rechercher sur la page" de votre navigateur ou simplement avec "Ctrl-F".
Comparer les résultats (termes côte à côte, présence/absence des termes).
Dans l'onglet 'Search Details' vous pourrez comprendre comment vos requêtes sont traduites
Quelle est la différence entre la première et la seconde requête (avec ou sans AND) ?
Flèche vers le haut

II-3. Combinaison de plusieurs requêtes

Dans l'onglet "Advanced", la partie "History" qui se trouve sous la zone de saisie affiche les plus récentes requêtes effectuées depuis votre connection à la banque. Chaque requête porte un numéro (#1, #2, ...). Il est possible de croiser le résultat de plusieurs requêtes en utilisant leur numéro. Par exemple, "#1 AND #2" correspond à l'ensemble des entrées qui vérifie à la fois les critères de la requête #1 et ceux de la requête #2. Depuis l'historique, il est également possible de relancer des requêtes, en supprimer, ...
Rechercher les séquences humaines soit à l'aide du nom usuel "human", soit à l'aide du nom latin "homo sapiens" (sans préciser le champ 'organism').
Est-ce que le nombre d'entrées trouvées change entre les deux ?
Est-ce que le nom usuel apparaît dans la ligne "SOURCE" (équivalente à la ligne "OS" du format EMBL) ?
À l'aide de l'historique, affichez les entrées qui ne contiennent que le nom usuel.
Est-ce que ces entrées proviennent du génome humain ?
Dans au moins une de ces entrées, regardez où apparaît le nom usuel.
Est-ce qu'il vaut mieux faire une interrogation par le nom latin ou le nom usuel ?
Faire la meme recherche en précisant [orgn] en tant que nom de champ. Trouvez-vous le même résultat que précédemment ?
Flèche vers le haut

II-4. Interrogation des champs et des rubriques

Dans l'onglet "Advanced", la partie "Builder" donne accès à la liste des champs interrogeables de la banque de données.
En utilisant la liste des champs, faire une requête permettant d'avoir les séquences d'ARNm de souris d'une longueur de 500 à 1000 paires de bases. Vous voyez la requête se construire au fur et à mesure dans la zone de texte au dessus de 'Builder'. Vous pouvez éditer cette zone de texte et modifier la requête.
Exécuter les requêtes suivantes avec l'interface de requête avancée ("Advanced") ou simple.
  1. Donner les séquences humaines de référence (banque REFSEQ) associées au gène APOE4
  2. Donner les séquences humaines d'ARNm de référence (banque REFSEQ) associées au gène APOE4
  3. Donner les séquences de référence (banque REFSEQ) associées au gène APOE4 qui sont caractérisées par une région CDS et une région EXON
  4. Donner les liens de publications en accès libre publiées entre 2000 et 2012, ayant le nom du gène APOE4 dans leur titre
  5. Trouver les informations disponibles sur le gène APOE4 humain dans la rubrique Gene concernant les variants (gene_omim [FILTER]).
  6. Dans la rubrique Taxonomy, étudier l'ordre des primates et la superfamille des hominidés (hominoidea).
A quelle maladie génétique est associée ce gène ?
Parmi les requêtes suivantes, une seule s'exprime au travers du langage de requête de Gquery, indiquer laquelle et donner son expression :
  1. Rubrique Nucleotide : donnez la séquence la plus courte
  2. Rubrique Nucleotide : donnez les séquences qui sont décrites par 3 régions introniques (FKEY = INTRON)
  3. Rubrique Nucleotide : donnez les séquences qui sont décrites par une région "gene", une région "mRNA et une région "CDS"
Pourquoi certaines requêtes demeurent-elles impossibles à exprimer avec le langage proposé par Gquery ?
D'autres requetes sur les différentes rubriques au NCBI : TD Gquery
Flèche vers le haut

II-5. Changement du format d'affichage

Plusieurs menus déroulants sont proposés en haut de la page résultat : "Format", "Item per page", "Sort by", "Send to".
Rechercher les gènes (ARNm) qui codent pour une protéine ayant une fonction dikinase, chez Arabidopsis thaliana. Vous devez trouvez une trentaine d'entrées. Utilisez les filtres dans la partie de gauche de la page résultat pour ne garder que des séquences de la banque RefSeq.
Est-ce que les entrées trouvées sont redondantes ou correspondent à des gènes différents ?
Afficher l'entrée d'un des ARNm trouvés. Enregistrez l'entrée à l'aide du menu "Enregistrer sous" de votre navigateur. Ouvrer le fichier ainsi enregistré.
Quel est le type (l'extension) de ce fichier ?
Changer le format d'affichage en "Graph" (ou "Graphics"). Cet affichage est très apréciable pour visualiser de grandes entrées.
Changer l'affichage au format FASTA, mais en demandant directement l'enregistrement dans un fichier à l'aide du bouton "Send to".
Flèche vers le haut

II-6. Clipboard et liens pour chaque séq.

On peut sauver temporairement des entrées d'une ou plusieurs recherches en utilisant le Clipboard. Attention cependant car le Clipboard est perdu après 8 heures d'inactivité
Retourner dans une de vos recherches, selectionnez 1 séquence et envoyer là sur le clipboard à l'aide du bouton "Send to". Un message apparaît pour vous indiquez le nombre de séquence ajouté au Clipboard.
Sauver d'autres séquences d'autres recherches, puis rendez-vous dans votre Clipboard. Et essayer les possibiltés du Clipboard.
Essayer les différents parties à droite : dans 'Filter your results', vous avez la possibilités de filtrer vos résultats suivant différents critères proposés; il est également possibile de lancer un Blast, ... .
Flèche vers le haut

III. Formats et autres systèmes d'interrogation

III.1 Conversions de formats

Exercices de conversions de formats FASTA, Genbank et GFF : TD Format

III.2 Le format GFF

Construire un fichier au format GFF du gène APOE4
EMBOSS propose des outils de conversion comme SeqRet (Site web de l'EBI ou de EMBOSS) et GenomeTools propose un outils de validation du format GFF (GFF3 validator) et de visualisation (AnnotationSketch)

III.3 D'autres systèmes d'interrogation

Aller sur le site des banques EMBL (EBI) et UNIPROT puis tester quelques unes des requêtes précédemment faites sur le site du NCBI.