| Titre : | Méthodes de Super-Arbres pour la Phylogénomique | | Type de document : | texte imprimé | | Auteurs : | Céline SCORNAVACCA, Auteur | | Année de publication : | 2009 | | Langues : | Français (fre) | | Tags : | INFORMATIQUE BIOLOGIE EVOLUTION ALGORITHMES SUPER-ARBRES | | Index. décimale : | THE Thèses de doctorat | | Résumé : | Les relations évolutives entre les espèces peuvent être résumées dans un arbre communément appelé "arbre des espèces". Ces arbres sont principalement estimés en analysant des "arbres de gènes", ie, des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons méthodologiques et biologiques, un arbre de gènes peut différer de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent plusieurs jeux de données à la fois. Cette thèse se focalise sur l'approche "super-arbre" pour combiner les jeux de données, qui consiste à construire des arbres "sources" à partir de données primaires puis à les assembler en un arbre plus grand. Au sein d'une approche "diviser pour régner" visant à reconstituer l'Arbre de Vie, il est préférable d'utiliser une méthode conservative afin d'obtenir des arbres fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations présentes ou induites par les arbres sources(propriété d'induction), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction). Nous avons défini de manière formelle ces deux propriétés (nommées PI et PC) et développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes,PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. Les événements de duplication aboutissent souvent à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, ie, une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ces arbres, ils sont ignorés dans un approche super-arbre. Dans cette thèse, nous proposons plusieurs algorithmes pour extraire une quantité maximale de signal de spéciation à partir d'arbres multi-étiquetés. Ce signal est rendu sous la forme d'arbres où chaque espèce n'apparaît qu'une fois, i.e d'arbres que les méthodes de super-arbres savent gérer. En plus de tests sur des données simulées, plusieurs applications sur des données réelles, conduites en collaboration avec des biologistes, ont permis de montrer la pertinence de ces travaux. | | Directeur(s) de thèse : | GASCUEL O. | | Co-directeur(s) de thèse : | BERRY V.;RANWEZ V. | | Rapporteur(s) : | SAGOT M.F.;HUSON D. | | Examinateur(s) : | GRIBALDO S. | | Date de soutenance : | 08/12/2009 |
Méthodes de Super-Arbres pour la Phylogénomique [texte imprimé] / Céline SCORNAVACCA, Auteur . - 2009. Langues : Français ( fre) | Tags : | INFORMATIQUE BIOLOGIE EVOLUTION ALGORITHMES SUPER-ARBRES | | Index. décimale : | THE Thèses de doctorat | | Résumé : | Les relations évolutives entre les espèces peuvent être résumées dans un arbre communément appelé "arbre des espèces". Ces arbres sont principalement estimés en analysant des "arbres de gènes", ie, des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons méthodologiques et biologiques, un arbre de gènes peut différer de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent plusieurs jeux de données à la fois. Cette thèse se focalise sur l'approche "super-arbre" pour combiner les jeux de données, qui consiste à construire des arbres "sources" à partir de données primaires puis à les assembler en un arbre plus grand. Au sein d'une approche "diviser pour régner" visant à reconstituer l'Arbre de Vie, il est préférable d'utiliser une méthode conservative afin d'obtenir des arbres fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations présentes ou induites par les arbres sources(propriété d'induction), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction). Nous avons défini de manière formelle ces deux propriétés (nommées PI et PC) et développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes,PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. Les événements de duplication aboutissent souvent à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, ie, une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ces arbres, ils sont ignorés dans un approche super-arbre. Dans cette thèse, nous proposons plusieurs algorithmes pour extraire une quantité maximale de signal de spéciation à partir d'arbres multi-étiquetés. Ce signal est rendu sous la forme d'arbres où chaque espèce n'apparaît qu'une fois, i.e d'arbres que les méthodes de super-arbres savent gérer. En plus de tests sur des données simulées, plusieurs applications sur des données réelles, conduites en collaboration avec des biologistes, ont permis de montrer la pertinence de ces travaux. | | Directeur(s) de thèse : | GASCUEL O. | | Co-directeur(s) de thèse : | BERRY V.;RANWEZ V. | | Rapporteur(s) : | SAGOT M.F.;HUSON D. | | Examinateur(s) : | GRIBALDO S. | | Date de soutenance : | 08/12/2009 |
|