La sélection de variables en grande dimension, avec beaucoup plus de covariables que d'observations, est largement documentée dans les modèles de régression standard, mais il existe encore peu d'outils pour l'aborder dans les modèles non linéaires à effets mixtes où les données sont collectées de manière répétée sur plusieurs individus. Dans ce travail, la sélection des variables est abordée d'un point de vue bayésien et une procédure de sélection est proposée, combinant l'utilisation d'un a priori de type spike-and-slab et l'algorithme SAEM. Comme pour la régression LASSO, l'ensemble des covariables pertinentes est sélectionné en explorant une grille de valeurs pour le paramètre de pénalisation. L'approche SAEM est beaucoup plus rapide qu'un algorithme MCMC classique et notre méthode montre de très bonnes performances de sélection sur des données simulées. L'utilité de la méthode proposée est illustrée sur un problème d'identification de marqueurs génétiques pouvant être impliqués dans le processus de sénescence du blé tendre. Par ailleurs, à notre connaissance, il n'existe aucun résultat théorique de type consistance en sélection dans de tels modèles. On aimerait donc comblé ce vide dans la littérature et je vous propose de vous présenter nos premiers résultats.
Sélection de variables en grande dimension dans les modèles non-linéaires à effets mixtes à l'aide d'un EM stochastique avec prior spike-and-slab
Séminaire
Organisme intervenant (ou équipe pour les séminaires internes)
INRAE
Nom intervenant
Marion Naveau
Résumé
Lieu
Amphi C2.0.37
Date du jour
Date de fin du Workshop