Des statistiques perchées sur l’arbre

Marie-Anne Poursat, mathématicienne du département de Mathématiques d’Orsay travaille en étroite collaboration avec les biologistes pour modéliser l’évolution des espèces grâce au développement de méthodes mathématiques complexes. La démarche du mathématicien est de structurer la multitude des observations de mécanismes moléculaires fournies par les biologistes pour mettre au point les bons outils (autrement dit les algorithmes). Objectif : la phylogénie, c’est-à-dire l’étude de la formation et de l’évolution des organismes vivants en vue d’établir leur parenté.

Depuis Darwin, l’évolution est représentée par un arbre, enraciné sur une espèce ancestrale, qui s’évase aux feuilles, les espèces d’aujourd’hui. Il existe diverses méthodes statistiques pour reconstruire cet arbre à partir des feuilles, les données de départ. La voie de cette reconstruction est semée d’embuches : entre les racines et les feuilles, on trouve de nombreuses branches qui incarnent le lien ancêtre/descendant, et des nœuds au bout d’une branche qui donnent lieu à deux autres branches (quand une espèce mère donne naissance à deux espèces filles). Cette structure en arbre est due à l’évolution des espèces qui, bien sûr, n’est pas directement observable.

La méthode aujourd’hui privilégiée est celle dite de « vraisemblance ». Elle consiste à chercher des paramètres qui maximisent la probabilité d’apparition d’une séquence d’un gène ou d’une protéine sélectionnée par les biologistes. Ces paramètres sont l’arbre, les longueurs des branches et les paramètres de substitution des modèles d’évolution (plus précisément les fréquences de mutation des sites des séquences). Jusqu’aux  années 2000, cette méthode, due au statisticien et généticien Ronald Fisher en 1922, avait été peu utilisée en raison du coût en temps très élevé des calculs à effectuer. Il suffit de dire que pour 12 espèces il faudrait calculer les vraisemblances de 14 milliards d’arbres. L’importance grandissante de cette méthode aujourd’hui est due principalement au  développement de logiciels performants et astucieux permettant de balayer rapidement l’espace des arbres pour retrouver le maximum de la vraisemblance en un temps raisonnable. Une autre vertu de cette méthode est d’expliciter le modèle d’évolution qui peut donc être raffiné en y incorporant au fur à mesure les nouvelles connaissances acquises.

Cette méthode est aujourd’hui la plus utilisée : on peut mentionner que gran-de majorité des études concernant le virus H1N1 ont été réalisées grâce à elle. Une fois établie la fiabilité de la vraisemblance, on pourrait croire que c’est la fin de l’histoire. Contre toute attente, Marie-Anne Poursat explique que c’est en fait là que tout commence. Il faut en effet évaluer la robustesse de la phylogénie ainsi obtenue (comment l’arbre est-il affecté par de petites modifications des  données?), et construire des tests statistiques pour répondre aux questions actuelles des biologistes (comment détecter dans l’arbre les gènes soumis  à sélection?). La réponse nécessite d’estimer les fluctuations autour de la phylogénie moyenne. La complexité est au rendez-vous…

Contact

Marie-Anne Poursat
UFR SCIENCES
Laboratoire de Mathématiques d’OrsayProbabilités, Statistique et Modélisation
Email : marie-anne.poursat@math.u-psud.fr
Tel : 01 69 15 57 47

Les commentaires sont fermŽs !