II. Modélisation des motifs biologiques
Ces exercices portent sur l'étude de motifs biologiques que ce soit
dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est
l'étude d'une famille de facteurs de transcription qui possèdent un
motif de type "basic leucine zipper" (bZIP). On notera que les
protéines humaines appartenant à cette famille sont peu conservées.
II-1. Détermination d'un motif caractéristique d'une famille de protéines
Il existe plusieurs représentations possibles pour un motif
biologique (ex : pseudo-expression régulière, profile, HMM,
alignement, ...). Nous allons essayer de construire un motif de type
pseudo-expression régulière sur les 43 protéines présentes dans
ce fichier, au format FASTA (séquences non alignées).
Faire un alignement multiple de ces séquences avec le logiciel que vous souhaitez.
Déterminer les positions approximatives de début et de fin de la région
conservée entre les séquences de cette famille.
En utilisant Seaview, lancer Gblocks (Menu Site -> create set) pour nettoyer l'alignement et vous aider à répérer la région conservée (jouer sur les paramètres de Gblocks si nécessaire).
Trouvez l'entrée
Prosite correspondant au
motif bZIP.
Recopiez l'expression régulière modélisant le motif.
II-2. Lecture de l'alignement à l'aide de WebLogo
Pour identifier plus facilement la conservation des colonnes, il est
possible d'utiliser la représentation
WebLogo.
Collez l'alignement multiple au format
FASTA.
Pour une meilleure lisibilité des résultats, nous allons
limiter l'affichage à la région qui contient le motif bZIP à l'aide de
l'option "Logo Range:" (positions définies précédemment). De plus,
nous allons doubler la taille de l'image en indiquant les valeurs "PNG (high res)" pour Output format, "large" pour "Logo Size" et 15 pour "Stacks per Line". Vous garderez cette image ouverte.
Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans
cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se
rapprocher du motif bZIP ?
On pourrait modifier manuellement l'alignement afin de mieux respecter
l'expression régulière de bZIP mais cela prendrait trop de temps.
II-3. Méthode d'extraction d'un motif
Pratt recherche des motifs communs à un ensemble de séquences ADN ou
protéiques sous la forme de pseudo-expressions
régulières.
Liens pour accéder à Pratt:
- Pratt sur la plateforme de l'EBI
- Pratt sur la plateforme du SIB (Swiss Institute of Bioinformatics)
Lancez Pratt sur les séquences de la famille bZIP. Attention, si vous utilisez Pratt sur la plateforme de l'EBI, vous devez choisir "ON" pour l'option "PATTERN REFINEMENT" (STEP 3). Attention, si vous utilisez Pratt sur la plateforme du SIB, il faut décocher l'option "Directly submit best pattern to ScanProsite" afin de voir le résultat de Pratt.
Est-ce que Pratt retrouve des motifs qui vous semblent pertinents
par rapport à ce qu'il peut être vu à l'aide de WebLogo
(l'alignement) ?
Est-ce que l'expression régulière de bZIP est au moins
partiellement trouvée par Pratt ?
II-4. Vérification de la qualité d'un motif
Pour vérifier si un motif est bien caractéristique d'une famille de
séquences, il faut le tester contre une banque de séquences
protéiques. Le plus simple est de choisir SwissProt, la banque de
protéines annotées par des experts car la fonction des protéines est
donnée systématiquement et est fiable. Les résultats attendus pour un
bon motif sont :
- il retrouve toutes les séquences de la
famille considérée (ou presque),
- il ne retrouve aucune séquence
d'une autre famille (ou presque).
Nous allons tester le bon comportement des motifs trouvés par Pratt en utilisant
ScanProsite. Comme vous l'avez déjà vu au TP3, cet outils permet non seulement d'étudier une séquence protéique en cherchant les motifs de la banque Prosite
qu'elle contient (option 1) mais aussi de rechercher une expression régulière
(même syntaxe que Pratt) sur toutes les protéines de SwissProt (option 2).
Testez le meilleur motif déterminé par Pratt contre la banque
UniProtKB/SwissProt ("step 2"), limitée aux séquences qui proviennent de l'homme ("step 2" - "Filter: On taxonomy"). Dans la
partie "Output format", choisissez le mode
"Text" pour accélérer l'affichage des résultats.
Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant
l'expression régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction
facteur de transcription à motif bZIP ?
Par défaut, Pratt recherche des motifs conservés dans toutes les
séquences données en entrée. Mais, les motifs les plus pertinents ne
sont pas toujours bien conservés dans l'ensemble des séquences de
départ.
Relancer Pratt sur les séquences de la famille bZIP mais cette fois ci en diminuant le pourcentage minimum de séquences à apparier (option "pattern parameters" -> "The pattern must match at least" ou "MIN PERCENTAGE" ) à 80 %.
Est-ce que les motifs trouvés semblent plus pertinents que ceux trouvés
avec 100 % des séquences à apparier ?
Relancer ScanProsite pour rechercher le meilleur motif trouvé par Pratt dans les séquences humaines de SwissProt (n'oubliez pas de prendre celui de
la liste "Best Patterns (after refinement phase):").
Est-ce que la qualité du motif est meilleure ?
III. Étude d'un site de fixation de facteur de transcription
Maintenant que nous avons étudié les protéines, nous allons
étudier le site de fixation d'un facteur de transcription de la
famille bZIP : AP1_human.
Voila des séquences provenant de EMBL correspondant aux sites de fixation de AP1 qui ont été déterminés expérimentalement :
fichier au format Fasta.
III-1. Détermination d'une expression régulière représentant le site
Nous allons construire manuellement une expression régulière
représentant ce site de fixation.
Pour cela, lancer un alignement multiple sur les 12 sous-entrées avec le logiciel de votre choix.
Faites le
WebLogo
à partir de l'alignement en demandant également d'agrandir l'image pour une meilleure lisibilité.
Est-ce que le motif est bien conservé sur toutes les positions ?
Quelle expression régulière peut-on définir à partir de cette
représentation ?
III-2. Recherche de l'expression régulière déterminée
Regardez la fiche Genbank (GQuery - NCBI) de l'entrée AF077374, notez la position du site AP-1 et récupérer cette séquence au format FASTA.
Pour rechercher l'expression régulière déterminée à partir du WebLogo
contre l'entrée AF077374 qui contient un site de fixation AP-1
déterminé expérimentalement, nous allons utiliser le logiciel
Fuzznuc de
EMBOSS Explorer.
Vous pouvez lancer Fuzznuc avec votre expression régulière du type
Prosite et la séquence AF077374
au format FASTA. Précisez
également que la recherche doit être faite sur les deux brins ("Search
complementary strand").
Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez
l'expression régulière pour le trouver.
III-3. Construction et recherche d'un profil
La représentation d'un site est plus fiable si l'on passe par un
profil plutôt qu'une expression régulière.
En utilisant
EMBOSS Explorer construire un profil du type Gribskov à partir de l'alignement (partie II-1) à l'aide du logiciel Prophecy. Une fois le profil créé, vous pouvez le rechercher
dans l'entrée AF077374 à l'aide du logiciel Prophet.
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression
régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le
profil ?