TER 2004-2005

TER 2004-2005

Méthode de consensus majoritaire pour l'assemblage d'arbres dont les feuilles sont étiquetées.

Encadrant : Vincent Berry, UM2-LIRMM.

Mot clefs : algorithmique, arbres, complexité d'un algorithme, graphes.

Résumé :

On dispose d'arbres dont les feuilles ont chacune une étiquette. Ces arbres n'ont pas forcément la même structure (certains sont équilibrés, d'autres non, etc). On veut obtenir un arbre "consensus" de ces arbres, c'est à dire une sorte d'arbre résumé, représentant tous les points sur lesquels la majorité des arbres de départ sont d'accord.

Quand tous les arbres de départ ont le même ensemble d'étiquettes, il existe une méthode bien établie (nommée AM). Le sujet de ce projet porte sur le cas où les arbres de départ ont des ensembles d'étiquettes différents (les arbres ont toutefois quelques étiquettes en commun). Ce cas n'a pas encore été étudié semble-t-il

Etapes proposées dans la réalisation du projet :

1. On se familiarisera avec les programmes (ligne de commande) implémentant la méthode AM ou proche de cette approche. Par ex : Phylip, PAUP, Clann.

2. Puis on proposera une extension naturelle de la méthode AM, en utilisant par exemple une modélisation sous forme de graphe.

3. On pourra ensuite explorer une variante permettant de produire un arbre résultat ne contenant pas forcément toutes les étiquettes des arbres de départ.

Domaine d'application :

de telles méthodes peuvent être appliquées dans de nombreux domaines (bioinformatique, description d'images, langues naturelles, bases de données, etc). Si nous en avons le temps, et suivant la motivation des étudiants, nous regarderons de plus près leur application en bioinformatique pour la construction de phylogénies, sortes d'arbres généalogiques expliquant la façon dont les espèces vivantes actuelles découlent d'ancêtres communs (espèces éteintes). Notamment, on pourra considérer la construction d' "arbres de la Vie".

Type du projet :

ce projet porte avant tout sur l'étude et l'écriture d'algorithmes d'assemblage d'arbres, puis éventuellement sur la programmation des méthodes proposées et leur comparaison sur la base de données simulées ou réelles. Si les étudiants sont extrêmement motivés et productifs, on pourra aller jusqu'à la mise en ligne du ou des programmes (technos web CGI/scripting) sur un serveur déjà opérationnel au LIRMM afin de permettre à d'autres scientifiques de traiter leurs collections d'arbres à distance.

Pré-requis :

Il est conseillé aux étudiants choisissant ce sujet de suivre les modules d'algorithmique, le module sur les graphes, et éventuellement un module de programmation et de calculabilité. Bien-sûr, malgré une application potentielle à la biologie, aucune connaissance biologique n'est requise pour ce projet.

Bibliographie :

prévoir la lecture de 2,3 articles, dont :

J. Creevey, CLANN, article paru dans la revue Bioinformatics (en anglais)

V.Berry Super-arbre d'accord maximum, rapport de recherche (en français)