Sujet de stage de Master 2 recherche
Stage proposé par l'équipe SAMM de l'Université Paris 1 et par Orange Labs
Lannion, co-encadré pour le SAMM par F. Rossi et pour Orange Labs par
F. Clérot et M. Boullé. Le stage pourra se prolonger par une thèse CIFRE avec
les mêmes partenaires.
Sujet
Les masses de données collectées par les systèmes d'information contemporains
sont difficiles à exploiter avec les méthodes d'analyse de données et de data
mining classiques pour de nombreuses raisons. Trois problèmes reviennent de
façon assez systématiques :
- les données réelles sont mixtes alors que les modèles sont en général
spécifiques à un type de données : en pratique, on caractérise les objets
d'intérêt par des grandeurs continues (ou vues comme continues, par exemple
une bande passante calculée sur une minute), des grandeurs discrètes
ordonnées (comme le nombre d'enfants d'un foyer) et des caractéristiques
qualitatives (présence/absence d'un équipement, couleur du véhicule
principal, etc.). La plupart des méthodes d'analyse sont spécifiques à un
type de données ou s'appuient sur des combinaisons ad hoc de composantes
spécifiques à un type de données.
- les résultats des méthodes classiques sont difficiles à interpréter et/ou à
exploiter. On peut par exemple construire des méthodes de classification
(non supervisée) par mélange de distributions gaussiennes, ce qui conduit à
une liste de prototypes (les centres des gaussiennes) qui peuvent être
interprétés dans certains cas (notamment en utilisant des méthodes de
réduction de dimension) mais aussi à des matrices de covariances dont
l'exploitation pratique reste une gageure.
- les méthodes classiques sont rarement capables de traiter les masses de
données disponibles actuellement. Un algorithme quadratique en le nombre
d'observations ou le nombre de variables est en effet rarement applicable
aux données actuelles.
L'objectif de ce stage est de participer au développement de méthodes
d'analyse exploratoire s'attaquant aux trois problèmes sus-cités. Il s'agit
plus précisément d'étendre l'approche MODL à de nouveaux cas
d'utilisation. Cette approche d'estimation de densité par des modèles en
grille est développée par Orange Labs depuis quelques années. Elle s'appuie
sur la construction de groupes de valeurs dans le cas qualitatif et
d'intervalles dans le cas quantitatif. Les produits cartésiens entre ces
groupes pavent l'espace des valeurs prises par les observations en une
grille. On estime alors la densité de la loi jointe des observations en la
supposant constante sur chaque pavé de la grille.
L'approche MODL s'apparente à une forme de classification croisée au niveau
des variables décrivant les objets (K-classification, soit une
biclassification dans le cas à deux variables). La méthode à une complexité
sous quadratique qui la rend applicable à de très grands volumes de
données. Elle est associée à de nombreux outils d'exploitation des grilles
basés sur la théorie de l'information.
L'objectif du stage est d'étendre le principe de l'approche MODL a des
problèmes de classification croisée objets x variables. Au lieu de produire
des groupes de valeurs pour les variables, il s'agit de construire des groupes
d'objets d'une part et des groupes de variables d'autre part, de sorte que les
produits cartésiens entre ces groupes conduise à une forme d'homogénéité,
comme dans le cas décrit ci-dessus. Pour contourner les limites de ce type
d'approche de classification croisée, chaque variable pourra être au préalable
remplacée par une version découpée en classes de valeurs, autorisant ainsi une
modélisation plus fine des dépendances entre les variables.
Profil recherché
Les candidats devront posséder une bonne formation en statistique et savoir
mettre en œuvre de façon efficace des modèles variés issus de l'apprentissage
automatique avec le logiciel R. Une connaissance des mécanismes d'interfaçage
entre C/C++ et R sera appréciée. À défaut, les candidats pourront s'appuyer
sur une maîtrise de Python et des bibliothèques de calcul et d'apprentissage
de ce langage. D'autre part, une maîtrise de l'anglais est indispensable.
Informations pratiques
- Lieu du stage
- laboratoire SAMM, Université Paris 1, Centre PMF, 90
rue de Tolbiac, 75013 Paris.
- Calendrier
- stage de 6 mois avec un démarrage en mars ou avril 2015.
- Contact
- Fabrice Rossi
- Candidature
- par email, avec des documents joints (CV, relevé de notes,
mémoire de M1 le cas échéant, etc.) exclusivement au format pdf.
Bibliographie succincte :
- sur l'approche MODL elle même : M. Boullé.
Data grid models for preparation and modeling in supervised learning.
In Hands-On Pattern Recognition: Challenges in Machine Learning, volume 1,
I. Guyon, G. Cawley, G. Dror, A. Saffari (eds.), pp. 99-130, Microtome
Publishing, 2011.
- sur les applications de MODL à l'analyse exploratoire :
- M. Boullé, R. Guigourès, F. Rossi.
Nonparametric Hierarchical Clustering of Functional Data. Advances in
Knowledge Discovery and Management (AKDM-4), 527:15-35, 2014.
- R. Guigourès, M. Boullé, F. Rossi.
Étude des corrélations spatio-temporelles des appels mobiles en France.
In Actes de 13ème Conférence Internationale Francophone sur
l'Extraction et gestion des connaissances (EGC'2013), edited by Christel
Vrain, André Péninou and Florence Sedes, volume RNTI-E-24, pages 437-448,
Toulouse, France, February 2013.
- M. K. El Mahrsi, R. Guigourès, F. Rossi, and
M. Boullé. Classifications croisées de données de trajectoires contraintes par un réseau routier.
In Actes de 13ème Conférence Internationale Francophone sur l'Extraction et
gestion des connaissances (EGC'2013), edited by Christel Vrain, André
Péninou and Florence Sedes, volume RNTI-E-24, pages 341-352, Toulouse,
France, February 2013.
- R. Guigourès, M. Boullé, F. Rossi.
A Triclustering Approach for Time Evolving Graphs. In Co-clustering and
Applications, IEEE 12th International Conference on Data Mining Workshops
(ICDMW 2012), pages 115-122, Brussels, Belgium, December 2012.
- pour une bibliographie plus exhaustive on pourra consulter les articles de
Marc Boullé et ceux de Romain Guigourès.