Modèles Bayésiens non-paramétriques scalables pour le clustering et co-clustering

Séminaire

Organisme intervenant (ou équipe pour les séminaires internes)

MIA PS

Nom intervenant

Reda Koufache

Résumé

Le clustering est une tâche fondamentale de l'apprentissage non supervisé, visant à regrouper des observations similaires en clusters. Les modèles de mélange gaussien (GMM) figurent parmi les approches probabilistes les plus utilisées en vertu de leur interprétabilité et de leur efficacité. Toutefois, ils nécessitent de spécifier à l'avance le nombre de clusters K, ce qui limite leur applicabilité en pratique. Les modèles de mélange à processus de Dirichlet représentent une extension bayésienne non paramétrique des GMM, permettant d'inférer automatiquement K à partir des données et offrant ainsi plus de flexibilité.Lorsque les jeux de données tabulaires présentent une structure duale entre les observations (lignes) et les variables (colonnes), le co-clustering, qui partitionne simultanément les lignes et les colonnes en blocs homogènessurpasse souvent les approches classiques de clustering, qui ne produisent qu'une partition des lignes. Le modèle de blocs latents non paramétrique étend les modèles classiques de mélange en blocs dans un cadre bayésien non paramétrique, et permet d'inférer automatiquement le nombre de clusters de lignes et de colonnes.Bien que les méthodes de Monte Carlo par chaînes de Markov (MCMC), telles que l'échantillonneur de Gibbs, juissent de bonnes propriétés asymptotiques et d'une grande précision, leur processus d'inférence devient très lent en raison de leur complexité computationnelle, ce qui limite leur applicabilité lorsque le nombre d'observations est grand. Pour relever ce défi, nous proposons DisCGS, un algorithme d'inférence distribué qui approxime l'échantillonneur de Gibbs. Conçu pour des données partitionnées horizontalement sur plusieurs workers, DisCGS permet un clustering efficace et scalable, aussi bien pour des données continues que discrètes.Dans le cas continu, notre implémentation, lorsque les composantes sont supposées gaussiennes, atteint un temps d'exécution d'environ 3 minutes pour 100 itérations sur un jeu de données de 100 000 points, soit une accélération de plus de 200 fois par rapport à une approche centralisée qui nécessite 12 heures. Dans le cas discret, nous étendons notre méthode au cas où les composantes sont multinomiales, avec une application au clustering de textes. Enfin, notre méthode se généralise aisément aux distributions de la famille exponentielle.Nous étendons également cette approche distribuée au co-clustering via DisNPLBM, un algorithme d'inférence scalable pour les modèles de blocs latents bayésiens non paramétriques. DisNPLBM adopte une architecture master/worker, où les données sont réparties par lignes, permettant une inférence parallèle sans communication entre les workers. Il capture efficacement les structures de co-clustering. Nous validons le passage à l'échelle et la précision de notre approche sur des données synthétiques, et présentons également une application pratique sur des données réelles d'expression de gènes.

Lieu

Amphi A0.04

Date du jour

jeu 23/04/2026 - 11:00

Date de fin du Workshop

jeu 23/04/2026 - 12:00