GenIALearn | MIA Paris-Saclay

Agence de moyen

INRAE Métaprogramme

Année de démarrage - Année de fin de projet

2022-2024

Année de soumission

2021

Cordinateur.trice

Eric Barrey

Date de fin du projet

ven 13/12/2024 - 12:00

Equipe(s)

SOLsTIS

Etat

Accepté

Nom de l'appel d'offre

Digit-BIO

Partenaires (hors MIA-PS)

UMR GABI, EA 4526 IBISC

Participants de MIA-PS

Julien Chiquet, Tristan Mary-Huard, Joon Kwon

Site internet

Page du projet

Titre du projet

Prédire des caractères complexes par l’intégration de données massives de génotypage.

Résumé

Les modèles les plus couramment utilisés en prédiction génomique (modèle génétique additif type GBLUP) sont très efficaces pour prédire la valeur génétique des animaux sur quelques caractères génétiquement corrélés. En revanche, ce type de modèle ne permet pas d’intégrer un très grand nombre de mesures hétérogènes, ni de prédire beaucoup de caractères en sortie sans connaître leurs corrélations génétiques. De plus, ce modèle reste limité pour tenir compte des nombreuses interactions non-linéaires qui interviennent entre les régions du génome ou des facteurs environnementaux.

Afin de lever ces verrous, nous proposons d’utiliser les méthodes d’apprentissage statistique (Machine Learning) et d’apprentissage profond issues de l’IA, pour à la fois traiter les informations génétiques additives mais également les informations génétiques non-linéaires présentes dans les données massives de génotypage.

Le projet GenIALearn propose d’évaluer les performances des méthodes d’apprentissage statistique et profond pour la prédiction conjointe de multiples caractères complexes, par l’intégration de données massives de génotypage. Deux grandes familles de méthodes seront comparées entre-elles et à la méthode de référence le GBLUP :

D’une part, les méthodes d’apprentissage ensemblistes (random forests, gradient boosting), couplées à une étape d’apprentissage de représentation des données d’entrées, afin de proposer des niveaux de prédiction de référence
D’autre part, les réseaux de neurones avec différentes architectures, couplés à une étape d’apprentissage profond sur des bases de données massives, permettront de concevoir et de comparer des modèles prédictifs pour la sélection génomique animale.

Afin d'entraîner et des valider les premiers modèles de prédiction des phénotypes à partir des génotypes, il faut disposer d'un nombre élevé de données, si possible plus de 100 000 observations (génotypes + phénotypes). Aussi deux solutions sont envisagées: i) utiliser des données humaines très nombreuses (environ 500 000 observations), rendues anonymes et disponibles dans la base UK Biobank dans un cadre très stricte d'utilisation de recherche académique (Cf Fiche d'information RGPD ci-attachée); ii) générer des données simulées de génotypes associés à des phénotypes afin d'enrichir artificiellement des bases de données réelles trop peu nombreuses.

Télécharger le document

RGPD_projet_genIALearn.pdf1.44 Mo