L'acquisition de données massives dans des espaces de grande dimension est malheureusement souvent accompagnée de données contaminées. Dans ce contexte, même une faible proportion d'individus peut corrompre des indicateurs statistiques simples tels que la moyenne ou la variance.
Dans cet exposé, nous commencerons par présenter les enjeux et intérêts des statistiques robustes, en particulier pour le domaine de la détection automatique de données atypiques.
Puis, nous nous intéresserons à l'estimation robuste des paramètres de modèles de régression linéaire multivariée, en utilisant des versions robustes du critère classique des moindres carrés (Mahalanobis), avec ou sans régularisation Ridge. Deux méthodes d'estimation seront présentées : (i) les algorithmes de descente de gradient stochastique et leurs variantes moyennées (pour la version 'online'), et (ii) les algorithmes de point fixe (pour la version 'offline'). Ces méthodes seront appliquées à la fois aux critères des moindres carrés standard et de Mahalanobis, ainsi qu'à leurs équivalents régularisés. Sous certaines hypothèses, les estimateurs obtenus sont asymptotiquement normaux. De plus, comme la matrice de covariance du bruit est généralement inconnue, une estimation robuste de cette matrice est intégrée dans les algorithmes de descente de gradient stochastique, basée sur la distance de Mahalanobis. Enfin, des expériences numériques sur données synthétiques montreront la robustesse et l'efficacité des méthodes proposées.
Les algorithmes proposés sont implémentés dans le package R 'RobRegression', disponible sur le CRAN. Et ce travail est en collaboration avec Antoine Godichon-Baggioni et Stéphane Robin (LPSM, Sorbonne Université).
Séminaire
Organisme intervenant (ou équipe pour les séminaires internes)
SCAI
Nom intervenant
Laure Sansonnet
Résumé
Lieu
Amphi A0.04
Date du jour
Date de fin du Workshop