Cours de niveau Master 2 destiné à des étudiants avec des connaissances de niveau L3/M1 au moins en probabilités (en fonction des formations).
Cette partie du cours porte sur la classification automatique (le clustering en anglais) et traite de :
La première partie est traitée de façon très détaillée dans mon cours d'analyse des données, en particulier dans mes transparents. L'algorithme EM est aussi présenté dans ces transparents (on trouvera des compléments sur ce point sur la wikipédia, ainsi que dans un excellent article de synthèse d'Alexis Roche). La classification des noeuds d'un graphe est traitée selon l'article « A mixture model for random graphs ». Le début du deuxième chapitre de la thèse Matthew Beal propose une bonne introduction à l'EM variationnel (cf aussi ce tutoriel et ces transparents).
Cette partie du cours porte sur des modèles un peu particulier dont l'objectif est de fournir une classification adaptée à la visualisation. Il s'agit essentiellement
Les variantes probabilistes du SOM sont décrites dans cet article de Tom Heskes et dans cet autre article de Jakob Verbeek. L'article d'origine sur le GTM est celui-ci.
Cette partie du cours porte sur la visualisation de données par des méthodes de projection. On aborde :
Cette partie du cours porte sur la régression linéaire bayésienne et sur les processus gaussiens. Le site web gaussianprocess.org propose de très nombreux documents sur les processus gaussiens. Le livre « Gaussian Processes for Machine Learning » de C. E. Rasmussen et C. K. I. William, disponible en ligne, présente le sujet de façon à la fois détaillée et concise.
L'évaluation de ce cours se fait sur un rapport et une soutenance orale présentant un ou plusieurs articles scientifiques concernant les méthodes abordées en cours et leurs variantes. En fonction des compétences/préférences des étudiants, le travail peut comporter une mise en oeuvre informatique (en R).
Ces sujets ont déjà été traités dans le passé mais peuvent être repris sur demande.