Simulation, inférence et graphes : abécédaire de travaux en cours

Séminaire

Nom intervenant

Julien Stoehr (MCF Dauphine en délégation au MIA pendant 1 an)

Résumé

Bio : Après une brève carrière de danseur (et une seconde place à International Lindy Hop Championship en 2014), Julien Stoehr a soutenu sa thèse, encadrée par Jean-Michel Marin, sur les méthodes d’inférence pour les champs de Markov cachés. Il est aujourd'hui Maître de Conférence à l’Université Paris Dauphine. Son travail de recherche se concentre sur des questions de statistiques computationnelles avec un intérêt particulier pour les algorithmes d’inférence de type EM, MCMC ou ABC.

Titre : Simulation, inférence et graphes : abécédaire de travaux en cours

Résumé : cet exposé a pour objectif de présenter un aperçu de diverses questions qui m’intéressent et d’engager des échanges avec les membres de l’équipe.

Axe 1 : l’échantillonnage préférentiel est une méthode de type Monte Carlo permettant d’estimer une espérance sous une mesure de référence en approchant celle-ci par une mesure empirique basée sur un échantillon pondéré simulé sous une autre loi « bien choisie ». Le choix de cette loi est néanmoins particulièrement délicat lorsque l’espace d’échantillonnage est de grande dimension. Nous verrons comment utiliser cette méthode et palier ce problème au travers de plusieurs projets :

Autour du modèle PLN : dans le cadre de l’analyse des données de comptage multivariées, l’objectif est d’obtenir un estimateur du maximum de vraisemblance par une méthode d’échantillonnage couplée avec des techniques de réduction de la dimension (vraisemblance composite ou version PCA du modèle)
Entropic Mirror Monte Carlo : construction séquentielle d’une loi d’échantillonnage robuste à la grande dimension.

Axe 2 : dans l’étude des données spatiales agrégées, la question de l’échelle d’agrégation et de la quantification de l’hétérogénéité spatiale se pose tout naturellement. Alors que le problème d’agrégation spatiale est source de biais pour les études statistiques, de plus en plus de travaux de recherche issus de différents domaines (statistique, géographie urbaine, physique statistique) s’attaquent à ce problème en prenant en compte les aspects multi-échelle spécifiques aux données spatiales. Ce travail s’inscrit dans ce cadre, en proposant une formalisation rigoureuse pour un indice d’hétérogénéité spatiale localisé et multi-échelle. Il s’agit ici d’introduire une modélisation des données par un graphe connexe, et de proposer une procédure permettant de visiter l’ensemble des noeuds via un processus d’agrégation. A chaque étape de ce processus, le calcul d’une distance entre la distribution d’une variable d’intérêt dans la population totale et la distribution de la même variable dans l’ensemble des noeuds visités permet de construire un ensemble de trajectoires qui traduisent la structure spatiale multi-échelle des données.

Axe 3 : la simulation d’un modèle de mélange repose sur la représentation via des variables latentes. Cette représentation n’est néanmoins pas possible lorsque les poids du mélange ne sont plus sur le simplex et peuvent être négatifs (sous la contrainte que l’on garde une mesure de probabilité). Si une inversion numérique de la fonction de répartition peut être obtenue, il est possible de faire de la simulation exacte avec un algorithme du rejet dont on peut contrôler la probabilité d’acceptation.

Lieu

Salle C2.0.037

Date du jour

jeu 21/09/2023 - 11:00

Date de fin du Workshop

jeu 21/09/2023 - 12:00