Titre: Méthodes de sélection de variables dans des modèles GLARMA parcimonieux
Mots clés : Sélection de variables, modèles GLARMA, séries temporelles à valeurs discrètes, méthodes régularisées
Résumé : Dans cette thèse, nous proposons de nouvelles méthodes de sélection de variables pour les modèles linéaires généralisés auto-régressifs à moyenne ajustée (GLARMA) parcimonieux, qui peuvent être utilisés pour modéliser des séries temporelles à valeurs discrètes. Ces modèles permettent en effet d'introduire de la dépendance dans les modèles linéaires généralisés (GLM). Plus précisément, dans le chapitre 2, nous présentons une procédure d'estimation pour les modèles GLARMA de Poisson parcimonieux. En outre, dans le chapitre 4, nous établissons un résultat de consistance en signe pour l'estimateur des coefficients de régression dans un modèle de Poisson parcimonieux sans dépendance temporelle. Dans le chapitre 3, nous étendons notre procédure d'estimation au cas multivarié, tandis que dans le chapitre 5, nous l'étendons au cas de la loi binomiale négative. L'idée principale de notre procédure d'estimation est d'estimer d'abord les coefficients de la partie ARMA du modèle, puis d'utiliser une approche régularisée, à savoir le Lasso, pour estimer les coefficients de régression de la partie GLM du modèle. Dans le cas du modèle binomial négatif, nous estimons également le paramètre de surdispersion avant d'estimer les coefficients de régression.
La performance des méthodes proposées a été évaluée par des études de simulation dans différents cadres et sur différents jeux de données de biologie moléculaire. Nos approches présentent de très bonnes performances statistiques, et obtiennent de meilleurs résultats que les autres méthodes dans l'identification des coefficients de régression non nuls. En outre, leur faible temps de calcul permet de les appliquer à des jeux de données de grande dimension. Les méthodes proposées sont implémentées dans les packages R GlarmaVarSel, MultiGlarmaVarSel et NBtsVarSel, qui sont accessibles sur le CRAN (Comprehensive R Archive Network).