Cette thèse traite de la modélisation et de l'analyse de données de comptage de haute dimension dans le cadre des modèles à variables latentes, ainsi que de l'optimisation de tels modèles. Les modèles à variables latentes ont démontré leur efficacité dans la modélisation de structures de dépendance complexes pour les données de comptage, avec le modèle Poisson Log-Normal (PLN) comme exemple principal. Cependant, le modèle PLN ne répond pas aux caractéristiques des jeux de données de comptage réels, principalement en raison de son incapacité à produire un grand nombre de zéros. Nous proposons une extension, appelée PLN zéro inflaté (ZIPLN) pour répondre à ce problème. Ce dernier et d'autres variantes de PLN sont implémentés dans un package Python utilisant l'inférence variationnelle pour maximiser la log-vraisemblance. Dans la deuxième partie, nous nous concentrons sur le problème de maximisation d'une somme finie de fonctions, un problème couramment rencontré lors de l'optimisation d'une vaste catégorie de modèles à variables latentes. Nous introduisons une méthode adaptative nommée AdaLVR, qui évolue efficacement à la fois avec la dimensionnalité et la taille de l'échantillon du jeu de données, conçue explicitement pour ce problème d'optimisation. Une analyse théorique est menée, et une vitesse de convergence de $O(T^{-1})$ est obtenue dans le cadre convexe, où $T$ désigne le nombre d'itérations. Dans la troisième partie, nous discutons de l'optimisation des modèles à variables latentes par méthodes de Monte-Carlo, avec un accent particulier sur le modèle PLN. L'optimisation se fait dans un cadre non convexe et nécessite le calcul du gradient, qui est exprimé comme une intégrale intractable. Dans ce contexte, nous proposons un algorithme de premier ordre où le gradient est estimé par échantillonnage préférentiel auto-normalisé. Des garanties de convergence sont obtenues sous certaines hypothèses facilement vérifiables malgré le biais inhérent à l'estimateur du gradient. Il est important de noter que l'applicabilité du théorème de convergence va au-delà du cadre de l'optimisation dans les modèles à variables latentes. Dans la quatrième partie, nous nous concentrons sur la mise en œuvre de l' inférence pour les modèles PLN, avec un accent particulier sur les détails de l'inférence variationnelle conçue pour ces modèles. Dans l'annexe, nous dérivons des intervalles de confiance pour le modèle PLN et proposons une extension au modèle ZIPLN intégrant l'Analyse en Composantes Principales. Une approche semi-paramétrique est également introduite. Parallèlement, une analyse d'un jeu de données génomiques réel est menée, révélant comment différents types de cellules dans les feuilles de plantes répondent à un pathogène bactérien.
Soutenance de thèse de Bastien Batardière
Séminaire
Organisme intervenant (ou équipe pour les séminaires internes)
SOLsTIS
Nom intervenant
Bastien Batardière
Résumé
Lieu
Campus Agro Paris-Saclay, Amphi C2
Date du jour
Date de fin du Workshop