Cours de niveau Master 2 destiné à des étudiants avec des connaissances de niveau L3/M1 au moins en probabilités (en fonction des formations).

Contenu du cours et références

Classification

Cette partie du cours porte sur la classification automatique (le clustering en anglais) et traite de :

  1. méthodes classiques : k-means et classification hiérarchique ascendante
  2. modèle de mélange de gaussienne et algorithme EM
  3. EM variationnel et classification des noeuds d'un graphe

La première partie est traitée de façon très détaillée dans mon cours d'analyse des données, en particulier dans mes transparents. L'algorithme EM est aussi présenté dans ces transparents (on trouvera des compléments sur ce point sur la wikipédia, ainsi que dans un excellent article de synthèse d'Alexis Roche). La classification des noeuds d'un graphe est traitée selon l'article « A mixture model for random graphs ». Le début du deuxième chapitre de la thèse Matthew Beal propose une bonne introduction à l'EM variationnel (cf aussi ce tutoriel et ces transparents).

Classification et visualisation

Cette partie du cours porte sur des modèles un peu particulier dont l'objectif est de fournir une classification adaptée à la visualisation. Il s'agit essentiellement

  1. du Self Organizing Map (SOM) avec ses variantes probabilistes
  2. du Generative Topographic Mapping (GTM)

Les variantes probabilistes du SOM sont décrites dans cet article de Tom Heskes et dans cet autre article de Jakob Verbeek. L'article d'origine sur le GTM est celui-ci.

Visualisation

Cette partie du cours porte sur la visualisation de données par des méthodes de projection. On aborde :

  1. l'analyse en composantes principales
  2. l'analyse en composantes principales probabiliste et ses extensions (cf ci-dessous pour des articles de référence)
  3. les méthodes non paramétriques qui optimisent directement le placement des représentations en basse dimension, comme SNE, t-SNE et NeRV.

Régression

Cette partie du cours porte sur la régression linéaire bayésienne et sur les processus gaussiens. Le site web gaussianprocess.org propose de très nombreux documents sur les processus gaussiens. Le livre « Gaussian Processes for Machine Learning » de C. E. Rasmussen et C. K. I. William, disponible en ligne, présente le sujet de façon à la fois détaillée et concise.

TP

  1. TP R sur l'algorithme EM

Évaluation

L'évaluation de ce cours se fait sur un rapport et une soutenance orale présentant un ou plusieurs articles scientifiques concernant les méthodes abordées en cours et leurs variantes. En fonction des compétences/préférences des étudiants, le travail peut comporter une mise en oeuvre informatique (en R).

Sujets en 2016

  1. applications spécifiques :
  2. thème séries temporelles :
  3. thème causalité :
  4. thème graphes :

Anciens sujets

Ces sujets ont déjà été traités dans le passé mais peuvent être repris sur demande.

  1. thème graphes et réseaux :
  2. thème visualisation :
  3. thème séries temporelles :
  4. thème textes :
  5. thème recommandations :
  6. thème grande dimension :

Bibliographie