Visitez notre page

 

 

 

 

 

 


Cliquer pour voir les titres des deux exposés

Séminaire
Nom intervenant
Annaig De Walsche & Florian Teste
Résumé

 

Annaïg De Walsche

Bio: Doctorante en deuxième année à l'école doctorale de mathématiques Jacques Hadamard (EDMH), je réalise une thèse sous la direction de Tristan Mary-Huard et co-encadrée par Alain Charcosset. Je suis rattachée à l'UMR de Mathématique et Informatique Appliquées d'AgroParisTech-Inrae (MIA-Paris Saclay) et de l'UMR de Génétique Quantitative et Evolution - Le Moulon. Ma thèse est co-financée par le méta-programme INRAE Digit-Bio et l’entreprise KWS spécialisée dans la sélection végétale. Le sujet de ma thèse porte sur le développement de méthodes de méta-analyse dédiées à l’étude des interactions Génotype x Environnement en génétique des plantes.

Résumé de l'exposé: L'analyse jointe de résultats de différentes expériences pour identifier des configurations complexes ou pour améliorer la puissance statistique est un objectif typique de l'intégration de données. On considère ici le cas d'une collection d'éléments i=1,..n (par exemple des gènes) dont l'effet a été testé dans différentes conditions k=1,...,K. Chaque observation i consiste donc en un vecteur de K probabilités critiques. L'objectif de l'analyse est alors d'identifier les éléments qui ont un effet dans toutes les conditions ou dans un sous-ensemble prédéfini de conditions. Les probabilités critiques doivent alors être combinées de manière flexible afin d'explorer des hypothèses complexes (appelées hypothèses composites), tout en contrôlant le taux de faux positif.

Une procédure de test d'hypothèses composites utilisant un modèle de mélange multivarié où chaque élément appartient à une classe caractérisée par une combinaison de H0 et H1 (appelé configuration) a récemment été proposée (Mary-Huard et al, 2021 [1]). La principale limite de la procédure est qu'elle repose sur une hypothèse d'indépendance conditionnelle, i.e. la loi jointe des K probabilités critiques conditionnellement à la configuration est une loi produit.

Nous proposons d'adapter le modèle pour prendre en compte la structure de dépendance entre les K probabilités critiques. La dépendance est modélisée dans les lois jointes conditionnelles à l'aide d'une copule. L'inférence des paramètres du modèle est réalisé via un algorithme EM. Dans l'étape (M), les paramètres de la copule sont estimés par maximum de vraisemblance. L'étape (E) est optimisée pour limiter l'empreinte mémoire de la procédure, passant de O(n x 2^K) à O(n).

Des applications sur des données simulées ont été réalisées donnant des résultats concluants tant en termes de contrôle de faux positif et de puissance de détection qu'en terme d'efficacité de la méthode (temps de calcul et gestion de la mémoire). L'intérêt de la méthode est illustré par une application sur des données réelles d'études d'association génétique, où le nombre d'éléments (marqueurs génétiques) peut atteindre 10^6 et les nombre de conditions est de l'ordre de 10-20.

[1] T. Mary-Huard, S. Das, I. Mukhopadhyay, and S. Robin. Querying multiple sets of p-values. 2021

--------------

Florian Teste

Bio : En tant que doctorant en deuxième année à l'école doctorale de mathématiques Jacques Hadamard (EDMH), je poursuis mes recherches dans le cadre d'une thèse financée par Atos au sein de l'UMR de Mathématique et Informatique Appliquées d'AgroParisTech-INRAE (MIA-Paris Saclay). Mon travail de thèse se concentre sur le développement de méthodologies novatrices pour la prédiction des variations de prix et de rendement des cultures agricoles telles que le maïs, en utilisant exclusivement des données satellitaires. Cette approche se distingue nettement des méthodes actuellement prédominantes, qui reposent sur une multitude de sources de données hétérogènes.

Je suis encadré par David Makowski (MIA-PS, INRAE) et Philippe Ciais (LSCE).

 

Résumé : Several approaches based on statistical, mechanistic agronomic and economic models have been developed and are currently used to forecast agricultural commodity prices by market analysts and government agencies. Most of the time, these approaches are based on regional agricultural production values, estimated before harvest or measured afterwards, as well as on estimates of food demand. In practice, however, it is difficult to obtain reliable data on regional agricultural production early enough.

This study presents and evaluates several methods for forecasting variations in US corn yield and global corn prices using regional vegetation satellite products.
The spatial dimension of maps of vegetation indices derived from satellite products in the US Corn Belt is first reduced either by their spatial means or by principal components derived using the Empirical Orthogonal Function (EOF) method.

Mean values and EOF principal components are then used as explanatory variables in generalized LASSO linear models to forecast corn price and yield changes at different time horizons, before harvest.

Currently, our focus is on developing neural network structures, specifically autoencoders and variational autoencoders (VAEs), as part of our dimension reduction strategy. We then integrate the information encoded by autoencoders and VAEs, using the latent vectors generated by these models, as predictors within our generalized linear model (GLM).

 

 

 


 

Lieu
Amphi C2.0.037
Date du jour
Date de fin du Workshop