Emré Anakok
Titre : Bipartite graph variational encoder with fair latent representation
Résumé : We propose a method to represent bipartite interaction networks, such as plant-pollinator networks, using graph embeddings. We adapt the variational graph auto-encoder approach to the bipartite case, which enables us to generate embeddings in a latent space where the two sets of nodes are positioned based on their probability of connection. To enhance the ecological relevance of the resulting latent space, covariates can be added.
By incorporating the Hilbert-Schmidt independence criterion (HSIC) as a penalty term in our model, we ensure that the structure of the latent space remains independent on variables that are not of ecological interest and that are related with the sampling process.
Furthermore, we address the challenges associated with implementing our model on large data sets. We demonstrate the effectiveness of our model with simulations.
Finally, we showcase the applicability of our approach on the Spipoll data set, a large-scale plant-pollinator network obtained through a citizen science program, providing evidence of its relevance in real-world scenarios.
Bio : Ma thèse, intitulé "Prise en compte des effets d'échantillonnage pour la détection de structure des réseaux écologiques" est au croisement de deux sujets de statistiques : la théorie des graphes et l'échantillonnage, et de deux domaines scientifiques, mathématiques et écologie. Je suis encadré par Pierre Barbillon (Université Paris-Saclay, AgroParisTech), Colin Fontaine (Centre d'Écologie et des Sciences de la Conservation) et Elisa Thebault (Sorbonne Université). Je rentre bientôt dans ma troisième année de thèse.
Le processus d'échantillonnage d'un réseau écologique est long et difficile, il est certain que l'inventaire de l'ensemble des interractions sera non seulement incomplet, mais aussi biaisé selon la méthode d'échantillonnage utilisée. Le but de la thèse est de développer des outils statistiques capable de prendre en compte ces différents biais afin de conforter l'idée que la structure du réseau est bien le fruit d'une réalité écologique, et non celui de l'échantillonnage.
------------------------------------------------------------------
Mary Savino
Titre : A novel approach for estimating functions in the multivariate setting based on an adaptive knot selection for B-splines with an application to a chemical system used in geoscience.
Résumé: In this presentation, we will outline a novel data-driven method for estimating functions in a multivariate nonparametric regression model based on an adaptive knot selection for B-splines.
The underlying idea of our approach for selecting knots is to apply the generalized lasso, since the knots of the B-spline basis can be seen as changes in the derivatives of the function to be estimated. This method was then extended to functions depending on several variables by processing each dimension independently, thus reducing the problem to a univariate setting. The regularization parameters were chosen by means of a criterion based on EBIC. The nonparametric estimator was obtained using a multivariate B-spline regression with the corresponding selected knots. Our procedure was validated through numerical experiments by varying the number of observations and the level of noise to investigate its robustness. The influence of observation sampling was also assessed and our method was applied to a chemical system commonly used in geoscience. For each different framework considered in this presentation, our approach performed better than state-of-the-art methods.
Our completely data-driven method is implemented in the GLOBER R package which is available on the Comprehensive R Archive Network (CRAN).
Bio : Doctorante en fin de deuxième année à l'école doctorale de mathématiques Jacques Hadamard (EDMH), j'effectue une thèse financée par l'Andra (l'Agence nationale pour la gestion des déchets radioactifs) au sein de l'UMR de Mathématique et Informatique Appliquées d'AgroParisTech-Inrae (MIA-Paris Saclay). Le sujet de ma thèse porte sur le développement de méthode d'apprentissage statistique pour la simulation de problèmes fortement non linéaires en milieux poreux et elle est dirigée par Céline Lévy-Leduc et co-encadrée par Benoit Cochepin et Marc Leconte. Ces derniers, travaillant à l'Andra, me permettent d'appliquer les méthodes développées sur des projets liés au stockage profond des déchets de haute et moyenne radioactivité produits sur le territoire français.