La
base HOGENOM
contient un ensemble de familles de gènes, c'est à dire d'ensembles
de séquences homologues pour chacun desquels un arbre a été reconstruit.
A partir d'un extrait de cette base de données (ne contenant que des arbres
étiquetés sans répétition de taxons, filtrés grâce au script
keepSingleLabeledTrees.pl de Vincent Berry), a été créé un
fichier
qui à chaque espèce associe l'ensemble des familles qui la contiennent.
Le
nuage arboré de ce fichier
est alors créé
(avec le logiciel TreeCloud
et les options "unit=0 nbwords=150 sepchar=espece distance=jaccard color=yahoo") :
il rapproche dans un arbre les familles qui concernent
des ensembles d'espèces similaires, et permet d'identifier un sous-ensemble
de 16 familles
(qui apparaît dans un même sous-arbre sélectionné
dans l'image ci-dessous : hbg224295
hbg533583 hbg276235 hbg226707 hbg387411 hbg031034 hbg249756 hbg413308 hbg248175
hbg447397 hbg248092 hbg001289 hbg503592 hbg312541 hbg006057 hbg006611)
qui ont 46 taxons en commun, correspondant à plusieurs espèces
d'alpha et gamma-protéobactéries.
Le script
restrictToCommonLeavesLinux
de Celine Scornavacca est alors utilisé
sur le fichier contenant les
16 arbres de gènes sélectionnés
pour se restreindre aux 46 taxons en commun sur ces 16 arbres
et obtenir
ce fichier.
A partir du
fichier
d'HOGENOM détaillant les abréviations de noms d'espèces,
et de la
base de données
taxonomiques Uniprot, l'ordre taxonomique des 46 taxons
est récupéré
et permet de créer un fichier de commandes à Dendroscope qui charge
les arbres en les colorant. Le réseau Dendroscope est construit en utilisant
le bouton
Network (
threshold : 20, type de réseau :
Galled Network).
Le réseau SplitsTree est construit en chargeant successivement
les 16 arbres
(menu
File,
Tools,
Import multiple trees)
puis en calculant un "supernetwork" (
threshold : 0.2).