Contexte
En génétique des populations, l’admixture désigne un évènement d’introduction de matériel génétique provenant de deux ou plusieurs populations distinctes dans une population donnée. Un tel événement peut notamment être la conséquence de migrations ou de croisements entre populations. L’étude de l’admixture permet donc de mieux comprendre l’historique de formation des populations considérées et d’identifier les échanges de matériel génétique qui ont contribué à façonner ces populations au cours du temps. Lorsque l’admixture se produit, le génome des individus de la population admixée se caractérise par une mosaïque de signatures génétiques provenant de leurs ancêtres appartenant aux différentes populations. Du point de vue statistique, il est possible de détecter les évènements d’admixture en se basant sur les profils de fréquences alléliques obtenus pour chacune des populations impliquées. Ainsi la statistique F3 [1] est un indice statistique utilisé pour la détection d’évènements d’admixture entre trois populations. Bien que couramment utilisé, cet indice est généralement calculé marqueur par marqueur (i.e. position par position le long du génome), ce qui limite la capacité de détection de l’admixture lorsque l’évènement à détecter est diffus (de faible intensité) sur toute une région chromosomique.
Sujet
Objectifs du stage :
L’étudiant(e) devra développer une procédure de segmentation de signal pour l’identification des régions chromosomiques admixées. Dans un premier temps l’étudiant(e) devra se familiariser avec les principes théoriques de la statistique F3 et son utilisation dans la détection d’admixture,
ainsi qu’avec les algorithmes de segmentation du signal. Une procédure inspirée de [2] sera ensuite implémentée.
La méthodologie développée sera appliquée à deux jeux de données. Le premier, issu du projet 1000 Genomes [3], est constitué d’un ensemble d’individus échantillonnés dans plusieurs populations humaines issus de tous les continents. On considèrera ici les populations admixées d’Amérique du Sud, ainsi que les populations européennes et africaines, représentant les populations de référence. Le deuxième jeu de données est constitué d’un panel de 450 variétés de haricots, collectées dans le cadre du projet européen INCREASE [4]. Ces variétés proviennent
- d’Amérique du Sud, couvrant 2 zones géographiques correspondant à deux pools génétiques très caractérisés,
- d’Europe, les variétés de ce groupe correspondant à des individus admixés entre les deux pools génétiques précédents.
Compétences requises
Ce stage s’adresse à un(e) étudiant(e) de Master dans l’un de ces domaines : science des données, statistique, apprentissage automatique. Une maîtrise de la programmation en R, une expérience de travail avec de grands ensembles de données, ainsi qu’un intérêt pour les applications en biologie, et plus particulièrement en génétique sont requis.
Environnement de travail
Le travail sera réalisé dans le cadre du projet européen INCREASE. Vous travaillerez dans l’équipe SOLsTIS de l’unité MIA Paris-Saclay, située à AgroParisTech (Palaiseau), sous la supervision de Julie Aubert et Tristan Mary-Huard.
La durée du stage envisagée est de 5 à 6 mois, avec une date de début comprise entre février et avril 2025 suivant la disponibilité de l’étudiant(e).
Contact
Les candidat(e)s intéressé(e)s doivent postuler en envoyant un CV et une lettre de motivation à :
julie.aubert@inrae.fr
tristan.mary-huard@agroparistech.fr
Références
[1] Patterson, N., Moorjani, P., Luo, Y., Mallick, S., Rohland, N., Zhan, Y., … & Reich, D. (2012). Ancient admixture in human history. Genetics, 192(3), 1065-1093.
[2] Mary-Huard, T., & Rigaill, G. (2023). A genome-wide segmentation approach for the detection of selection footprints. bioRxiv, 2023-11.
[3] Siva, N. (2008). 1000 Genomes project. Nature biotechnology, 26(3), 256-257.
[4] Bellucci, E., Mario Aguilar, O., Alseekh, S., Bett, K., Brezeanu, C., Cook, D., … & Papa, R. (2021). The INCREASE project: Intelligent Collections of food‐legume genetic resources for European agrofood systems. The Plant Journal, 108(3), 646-660.