Avec l'accroissement drastique du volume de données, le sous-échantillonnage est devenu une pratique courante en apprentissage statistique. Sélectionnant un sous-groupe d'individus sur lequel le classifieur (ou le régresseur) va être entraîné, le sous-échantillonnage vise à réduire le coût et le temps de calcul de la procédure d'estimation, et conduit idéalement à une diminution de la consommation énergétique et de l'impact carbone de celle-ci. Nous étudions ici un cadre non-paramétrique, dans lequel l'estimateur est une fonction de décision appartenant à un espace de Hilbert à noyau reproduisant (RKHS), et obtenu par minimisation d'un risque empirique repondéré à la Horvitz-Thompson. Par l'étude des propriétés asymptotiques de cet estimateur, nous mettons à jour un plan de sous-échantillonnage optimal (au sens de la trace de l'opérateur de covariance) et montrons que celui-ci peut être approximativement mise en œuvre par plug-in. Une étude numérique sur jeux de données simulées et réel montre la faisabilité et le gain empiriques de l'approche proposée.
Sous-échantillonnage pour l'apprentissage supervisé non-paramétrique dans les RKHS
Séminaire
Organisme intervenant (ou équipe pour les séminaires internes)
MIA PS
Nom intervenant
Maxime Sangnier
Résumé
Lieu
Amphi A0.04
Date du jour
Date de fin du Workshop