TP4 : Alignement multiple local

Une grande partie du TP a été réalisé grâce à des exercices fournis par Maude Pupin, Hélène Touzet et Jean-Stéphane Varré.

I. Domaine actif (partie IV-4 du TP 3)

Finir le TP3 (notamment la partie IV-4) si vous n'avez pas eu le temps lors de la séance précédente.

II. Modélisation des motifs biologiques

Ces exercices portent sur l'étude de motifs biologiques que ce soit dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est l'étude d'une famille de facteurs de transcription qui possèdent un motif de type "basic leucine zipper" (bZIP). On notera que les protéines humaines appartenant à cette famille sont peu conservées.
Flèche vers le haut

II-1. Détermination d'un motif caractéristique d'une famille de protéines

Il existe plusieurs représentations possibles pour un motif biologique (ex : pseudo-expression régulière, profile, HMM, alignement, ...). Nous allons essayer de construire un motif de type pseudo-expression régulière sur les 43 protéines présentes dans ce fichier, au format FASTA (séquences non alignées).
Faire un alignement multiple de ces séquences avec le logiciel que vous souhaitez.
Déterminer les positions approximatives de début et de fin de la région conservée entre les séquences de cette famille.
En utilisant Seaview, lancer Gblocks (Menu Site -> create set) pour nettoyer l'alignement et vous aider à répérer la région conservée (jouer sur les paramètres de Gblocks si nécessaire).
Trouvez l'entrée Prosite correspondant au motif bZIP.
Recopiez l'expression régulière modélisant le motif.
Flèche vers le haut

II-2. Lecture de l'alignement à l'aide de WebLogo

Pour identifier plus facilement la conservation des colonnes, il est possible d'utiliser la représentation WebLogo.
Collez l'alignement multiple au format FASTA.
Pour une meilleure lisibilité des résultats, nous allons limiter l'affichage à la région qui contient le motif bZIP à l'aide de l'option "Logo Range:" (positions définies précédemment). De plus, nous allons doubler la taille de l'image en indiquant les valeurs "PNG (high res)" pour Output format, "large" pour "Logo Size" et 15 pour "Stacks per Line". Vous garderez cette image ouverte.
Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se rapprocher du motif bZIP ?
On pourrait modifier manuellement l'alignement afin de mieux respecter l'expression régulière de bZIP mais cela prendrait trop de temps.
Flèche vers le haut

II-3. Méthode d'extraction d'un motif

Pratt recherche des motifs communs à un ensemble de séquences ADN ou protéiques sous la forme de pseudo-expressions régulières.

Liens pour accéder à Pratt:
  • Pratt sur la plateforme de l'EBI
  • Pratt sur la plateforme du SIB (Swiss Institute of Bioinformatics)
Lancez Pratt sur les séquences de la famille bZIP. Attention, si vous utilisez Pratt sur la plateforme de l'EBI, vous devez choisir "ON" pour l'option "PATTERN REFINEMENT" (STEP 3). Attention, si vous utilisez Pratt sur la plateforme du SIB, il faut décocher l'option "Directly submit best pattern to ScanProsite" afin de voir le résultat de Pratt.
Est-ce que Pratt retrouve des motifs qui vous semblent pertinents par rapport à ce qu'il peut être vu à l'aide de WebLogo (l'alignement) ?
Est-ce que l'expression régulière de bZIP est au moins partiellement trouvée par Pratt ?
Flèche vers le haut

II-4. Vérification de la qualité d'un motif

Pour vérifier si un motif est bien caractéristique d'une famille de séquences, il faut le tester contre une banque de séquences protéiques. Le plus simple est de choisir SwissProt, la banque de protéines annotées par des experts car la fonction des protéines est donnée systématiquement et est fiable. Les résultats attendus pour un bon motif sont :
  • il retrouve toutes les séquences de la famille considérée (ou presque),
  • il ne retrouve aucune séquence d'une autre famille (ou presque).
Nous allons tester le bon comportement des motifs trouvés par Pratt en utilisant ScanProsite. Comme vous l'avez déjà vu au TP3, cet outils permet non seulement d'étudier une séquence protéique en cherchant les motifs de la banque Prosite qu'elle contient (option 1) mais aussi de rechercher une expression régulière (même syntaxe que Pratt) sur toutes les protéines de SwissProt (option 2).
Testez le meilleur motif déterminé par Pratt contre la banque UniProtKB/SwissProt ("step 2"), limitée aux séquences qui proviennent de l'homme ("step 2" - "Filter: On taxonomy"). Dans la partie "Output format", choisissez le mode "Text" pour accélérer l'affichage des résultats.
Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant l'expression régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction facteur de transcription à motif bZIP ?
Par défaut, Pratt recherche des motifs conservés dans toutes les séquences données en entrée. Mais, les motifs les plus pertinents ne sont pas toujours bien conservés dans l'ensemble des séquences de départ.
Relancer Pratt sur les séquences de la famille bZIP mais cette fois ci en diminuant le pourcentage minimum de séquences à apparier (option "pattern parameters" -> "The pattern must match at least" ou "MIN PERCENTAGE" ) à 80 %.
Est-ce que les motifs trouvés semblent plus pertinents que ceux trouvés avec 100 % des séquences à apparier ?
Relancer ScanProsite pour rechercher le meilleur motif trouvé par Pratt dans les séquences humaines de SwissProt (n'oubliez pas de prendre celui de la liste "Best Patterns (after refinement phase):").
Est-ce que la qualité du motif est meilleure ?
Flèche vers le haut

III. Étude d'un site de fixation de facteur de transcription

Maintenant que nous avons étudié les protéines, nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.

Voila des séquences provenant de EMBL correspondant aux sites de fixation de AP1 qui ont été déterminés expérimentalement : fichier au format Fasta.
Flèche vers le haut

III-1. Détermination d'une expression régulière représentant le site

Nous allons construire manuellement une expression régulière représentant ce site de fixation.
Pour cela, lancer un alignement multiple sur les 12 sous-entrées avec le logiciel de votre choix.
Faites le WebLogo à partir de l'alignement en demandant également d'agrandir l'image pour une meilleure lisibilité.
Est-ce que le motif est bien conservé sur toutes les positions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?
Flèche vers le haut

III-2. Recherche de l'expression régulière déterminée

Regardez la fiche Genbank (GQuery - NCBI) de l'entrée AF077374, notez la position du site AP-1 et récupérer cette séquence au format FASTA.
Pour rechercher l'expression régulière déterminée à partir du WebLogo contre l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement, nous allons utiliser le logiciel Fuzznuc de EMBOSS Explorer.
Vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et la séquence AF077374 au format FASTA. Précisez également que la recherche doit être faite sur les deux brins ("Search complementary strand").
Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez l'expression régulière pour le trouver.
Flèche vers le haut

III-3. Construction et recherche d'un profil

La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière.
En utilisant EMBOSS Explorer construire un profil du type Gribskov à partir de l'alignement (partie II-1) à l'aide du logiciel Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide du logiciel Prophet.
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?