Sujet de stage de Master 2 recherche

Stage proposé par l'équipe SAMM de l'Université Paris 1 et par Orange Labs Lannion, co-encadré pour le SAMM par F. Rossi et pour Orange Labs par F. Clérot et M. Boullé. Le stage pourra se prolonger par une thèse CIFRE avec les mêmes partenaires.

Sujet

Les masses de données collectées par les systèmes d'information contemporains sont difficiles à exploiter avec les méthodes d'analyse de données et de data mining classiques pour de nombreuses raisons. Trois problèmes reviennent de façon assez systématiques :

  1. les données réelles sont mixtes alors que les modèles sont en général spécifiques à un type de données : en pratique, on caractérise les objets d'intérêt par des grandeurs continues (ou vues comme continues, par exemple une bande passante calculée sur une minute), des grandeurs discrètes ordonnées (comme le nombre d'enfants d'un foyer) et des caractéristiques qualitatives (présence/absence d'un équipement, couleur du véhicule principal, etc.). La plupart des méthodes d'analyse sont spécifiques à un type de données ou s'appuient sur des combinaisons ad hoc de composantes spécifiques à un type de données.
  2. les résultats des méthodes classiques sont difficiles à interpréter et/ou à exploiter. On peut par exemple construire des méthodes de classification (non supervisée) par mélange de distributions gaussiennes, ce qui conduit à une liste de prototypes (les centres des gaussiennes) qui peuvent être interprétés dans certains cas (notamment en utilisant des méthodes de réduction de dimension) mais aussi à des matrices de covariances dont l'exploitation pratique reste une gageure.
  3. les méthodes classiques sont rarement capables de traiter les masses de données disponibles actuellement. Un algorithme quadratique en le nombre d'observations ou le nombre de variables est en effet rarement applicable aux données actuelles.

L'objectif de ce stage est de participer au développement de méthodes d'analyse exploratoire s'attaquant aux trois problèmes sus-cités. Il s'agit plus précisément d'étendre l'approche MODL à de nouveaux cas d'utilisation. Cette approche d'estimation de densité par des modèles en grille est développée par Orange Labs depuis quelques années. Elle s'appuie sur la construction de groupes de valeurs dans le cas qualitatif et d'intervalles dans le cas quantitatif. Les produits cartésiens entre ces groupes pavent l'espace des valeurs prises par les observations en une grille. On estime alors la densité de la loi jointe des observations en la supposant constante sur chaque pavé de la grille.

L'approche MODL s'apparente à une forme de classification croisée au niveau des variables décrivant les objets (K-classification, soit une biclassification dans le cas à deux variables). La méthode à une complexité sous quadratique qui la rend applicable à de très grands volumes de données. Elle est associée à de nombreux outils d'exploitation des grilles basés sur la théorie de l'information.

L'objectif du stage est d'étendre le principe de l'approche MODL a des problèmes de classification croisée objets x variables. Au lieu de produire des groupes de valeurs pour les variables, il s'agit de construire des groupes d'objets d'une part et des groupes de variables d'autre part, de sorte que les produits cartésiens entre ces groupes conduise à une forme d'homogénéité, comme dans le cas décrit ci-dessus. Pour contourner les limites de ce type d'approche de classification croisée, chaque variable pourra être au préalable remplacée par une version découpée en classes de valeurs, autorisant ainsi une modélisation plus fine des dépendances entre les variables.

Profil recherché

Les candidats devront posséder une bonne formation en statistique et savoir mettre en œuvre de façon efficace des modèles variés issus de l'apprentissage automatique avec le logiciel R. Une connaissance des mécanismes d'interfaçage entre C/C++ et R sera appréciée. À défaut, les candidats pourront s'appuyer sur une maîtrise de Python et des bibliothèques de calcul et d'apprentissage de ce langage. D'autre part, une maîtrise de l'anglais est indispensable.

Informations pratiques

Lieu du stage
laboratoire SAMM, Université Paris 1, Centre PMF, 90 rue de Tolbiac, 75013 Paris.
Calendrier
stage de 6 mois avec un démarrage en mars ou avril 2015.
Contact
Fabrice Rossi
Candidature
par email, avec des documents joints (CV, relevé de notes, mémoire de M1 le cas échéant, etc.) exclusivement au format pdf.

Bibliographie succincte :

Date de publication

16 novembre 2014

Mots clés

research

internship

stage

recherche

Orange Labs

MODL