Activités de recherche

Je m'intéresse à l'analyse des données (au Data Mining) en général, et à l'apprentissage statistique en particulier, notamment aux réseaux de neurones et aux support vector machines (la plupart de mes publications sont accessibles en ligne). Je travaille actuellement sur les données complexes (semi)-structurées, plus précisément sur les données fonctionnelles et sur les données non vectorielles (décrites par des tableaux de dissimilarités). Au niveau applicatif, je cherche à confronter les méthodes neuronales aux méthodes plus classiques. Je m'intéresse aussi à la résolution de problèmes pratiques sans a priori sur les méthodes employées. J'ai travaillé dernièrement sur des problèmes de spectrométrie et sur l'analyse de l'usage des sites web. (web usage mining).

Mes activités de recherche incluent des rapports pour des journaux et des conférences, ainsi que la participation à l'encadrement de doctorants. Je suis titulaire d'une habilitation à diriger des recherches et je suis qualifié aux fonctions de professeur en mathématiques appliquées (section 26 du CNU) et en informatique (section 27).

Thèmes de recherche

Données fonctionnelles

Une grande partie de mon travail de recherche est consacrée à l'analyse de données fonctionnelles (ADF). Il s'agit d'analyser des données qui ne sont plus de simples vecteurs d'un espace de dimension finie, mais des fonctions choisies dans un espace fonctionnel de dimension infinie. Ce nouveau cadre pose des problèmes pratiques et théoriques. Ma principale contribution à l'ADF a été de montrer que les réseaux de neurones et les support vector machines apportaient les mêmes améliorations à l'ADF qu'ils en apportent à l'analyse de données classique. J'ai produit des résultats théoriques et pratiques établissant ce fait.

Données non vectorielles

La deuxième grande partie de ma recherche concerne les données non vectorielles, en particulier quand elles sont décrites par des tableaux de similarités ou de dissimilarités. La seule information disponible pour ce genre de données consiste en une matrice NxN donnant les (dis)similarités entre tous les couples des N données observées. Avec mes collègues, j'ai proposé une adaptation de l'algorithme de cartes auto-organisatrices de Kohonen (SOM) qui peut traiter ce type de données (Il s'agit d'une variante du Median SOM proposé par Kohonen et Somervuo). Nous avons défini un algorithme rapide pour cette adaptation et nous l'avons appliquée à des problèmes d'analyse de l'usage d'un site web.

Je me suis aussi intéressé aux méthodes traitant certaines données non vectorielles structurées (comme les intervalles) par une stratégie de représentation vectorielle.

Domaines d'application

Spectrométrie/Chimiométrie

Un des domaines d'application privilégié de l'analyse de données fonctionnelles est la spectrométrie. Dans ce contexte, les observations sont en effet des spectres décrits par des fonctions régulières échantillonnées de façon fine (par exemple 1 000 longueurs d'onde pour un spectre). Chaque spectre correspond à une fonction qui associe à une longueur d'onde la grandeur observée par l'appareil de mesure, comme par exemple l'absorbance pour la spectrométrie en proche infrarouge.

J'ai appliqué des modèles neuronaux et des support vector machines des problèmes de spectrométrie en utilisant l'approche fonctionnelle. J'ai obtenu de très bons résultats qui montrent que le cadre fonctionnel constitue une bonne solution pour résoudre les problèmes induits par la très grande dimension des spectres.

J'ai aussi travaillé sur le même type de données grâce à une approche par sélection de variables spectrales couplée avec un modèle neuronal classique. Les résultats ont aussi été très bons.

Web mining

Le Web mining est une source intéressante de données non vectorielles. Quand on s'intéresse au contenu d'un site web (web content mining), on est bien sûr confronté à des données multimédias (textes, images, etc.) dont l'analyse est délicate. Je m'intéresse plus à l'analyse de l'usage d'un site web (web usage mining), qui s'avère aussi être une source de données complexes. En effet, on travaille à partir des fichiers log produits par le serveur du site web étudié qui contiennent la liste des requêtes reçues par le serveur. J'ai utilisé ces informations pour construire une mesure de dissimilarité entre les pages d'un site, basée exclusivement sur l'usage (et pas sur le contenu des pages). En appliquant une version adaptée du SOM à ces données, on construit une carte de l'usage d'un site qu'on peut confronter aux informations de contenu afin d'analyser la perception de ce contenu par les utilisateurs.

En complément à cet algorithme neuronal, j'ai appliqué aux mêmes données des méthodes de visualisation par graphe issue de travaux sur l'analyse des bases de données bibliographiques. On obtient ainsi une vue complémentaire sur les données.

Curriculum

Curriculum détaillé : format pdf ou format postscript