Je m'intéresse à l'analyse des données (au Data Mining) en général, et à l'apprentissage statistique en particulier, notamment aux réseaux de neurones et aux support vector machines (la plupart de mes publications sont accessibles en ligne). Je travaille actuellement sur les données complexes (semi)-structurées, plus précisément sur les données fonctionnelles, sur les graphes et sur les données non vectorielles (décrites par des tableaux de dissimilarités). Au niveau applicatif, j'ai travaillé dernièrement sur des problèmes de spectrométrie, sur la recherche de communautés dans les réseaux sociaux et sur l'analyse de l'usage des sites web (web usage mining).
Mes activités de recherche incluent des rapports pour des journaux et des conférences, ainsi que la participation à l'encadrement de doctorants. Je suis titulaire d'une habilitation à diriger des recherches et je suis qualifié aux fonctions de professeur en mathématiques appliquées (section 26 du CNU) et en informatique (section 27).
Une grande partie de mon travail de recherche est consacrée à l'analyse de données fonctionnelles (ADF). Il s'agit d'analyser des données qui ne sont plus de simples vecteurs d'un espace de dimension finie, mais des fonctions choisies dans un espace fonctionnel de dimension infinie. Ce nouveau cadre pose des problèmes pratiques et théoriques. Ma principale contribution à l'ADF a été de montrer que les réseaux de neurones et les support vector machines apportaient les mêmes améliorations à l'ADF qu'ils en apportent à l'analyse de données classique. J'ai produit des résultats théoriques et pratiques établissant ce fait.
La deuxième grande partie de ma recherche concerne les données non vectorielles, en particulier quand elles sont décrites par des tableaux de similarités ou de dissimilarités. La seule information disponible pour ce genre de données consiste en une matrice NxN donnant les (dis)similarités entre tous les couples des N données observées. Avec mes collègues, j'ai proposé plusieurs adaptations de l'algorithme de cartes auto-organisatrices de Kohonen (SOM) qui peut traiter ce type de données. Nous avons défini des algorithmes rapides pour ces adaptations et nous les avons appliquées à des problèmes d'analyse de l'usage d'un site web (ainsi qu'à des problèmes d'analyse de graphes).
Je me suis aussi intéressé aux méthodes traitant certaines données non vectorielles structurées (comme les intervalles) par une stratégie de représentation vectorielle.
Je m'intéresse depuis 2007 à l'analyse des données graphiques, plus précisément au problème de classification (clustering) dans les graphes. J'ai travaillé notamment sur l'utilisation de cartes de Kohonen pour la visualisation et la classification des noeuds d'un graphe. L'application de cette méthode à un réseau social médiéval a été commentée dans Nature News, Le Figaro et le journal du CNRS.
Un des domaines d'application privilégié de l'analyse de données fonctionnelles est la spectrométrie. Dans ce contexte, les observations sont en effet des spectres décrits par des fonctions régulières échantillonnées de façon fine (par exemple 1 000 longueurs d'onde pour un spectre). Chaque spectre correspond à une fonction qui associe à une longueur d'onde la grandeur observée par l'appareil de mesure, comme par exemple l'absorbance pour la spectrométrie en proche infrarouge.
J'ai appliqué des modèles neuronaux et des support vector machines des problèmes de spectrométrie en utilisant l'approche fonctionnelle. J'ai obtenu de très bons résultats qui montrent que le cadre fonctionnel constitue une bonne solution pour résoudre les problèmes induits par la très grande dimension des spectres.
J'ai aussi travaillé sur le même type de données grâce à une approche par sélection de variables spectrales couplée avec un modèle neuronal classique. Les résultats ont aussi été très bons.
Le Web mining est une source intéressante de données non vectorielles. Quand on s'intéresse au contenu d'un site web (web content mining), on est bien sûr confronté à des données multimédias (textes, images, etc.) dont l'analyse est délicate. Je m'intéresse plus à l'analyse de l'usage d'un site web (web usage mining), qui s'avère aussi être une source de données complexes. En effet, on travaille à partir des fichiers log produits par le serveur du site web étudié qui contiennent la liste des requêtes reçues par le serveur. J'ai utilisé ces informations pour construire une mesure de dissimilarité entre les pages d'un site, basée exclusivement sur l'usage (et pas sur le contenu des pages). En appliquant une version adaptée du SOM à ces données, on construit une carte de l'usage d'un site qu'on peut confronter aux informations de contenu afin d'analyser la perception de ce contenu par les utilisateurs.
En complément à cet algorithme neuronal, j'ai appliqué aux mêmes données des méthodes de visualisation par graphe issue de travaux sur l'analyse des bases de données bibliographiques. On obtient ainsi une vue complémentaire sur les données.