Recherche

Membre de l'équipe de statistique du Laboratoire de Mathématiques d'Avignon ( LMA) d'Avignon.
En délégation INRA depuis septembre 2014 dans l'unité Biostatistique et processus spatiaux.


En statistique les moments d'une variable aléatoire sont un indicateur de sa dispersion. La moyenne (moment d'ordre 1) et la variance (moment centré d'ordre 2), qui sont les plus répandus, trouvent leur analogue en statistique spatiale. En géostatistique on référe à la moyenne et à l'(auto)covariance, en géométrie stochastique à l'intensité et la fonction de corrélation de paire (ou de façon équivalente la fonction K de Ripley). La manière dont sont organisées les données dans l'espace est décrite par les moments et joue un rôle prépondérant dans le fonctionnement du processus spatial sous-jacent. Il est donc primordial d'en avoir une bonne connaissance en vue de mieux le comprendre et d'en proposer une modélisation pertinente. La différence avec la statistique classique est que l'on ne dispose que d'une réalisation processus pour estimer ces moments.

Que les données soient ponctuelles ou continues, la réalité se laisse rarement réduire à une simple hypothèse de stationnarité et les processus étudiés présentent bien souvent des écarts à celle-ci. Une part importante de mes travaux a porté sur la caractérisation de l'hétérogénéité spatiale ou spatio-temporelle et sur la modélisation de structures complexes dans ce contexte. Ceci englobe :
- des travaux théoriques sur le développement d'outils définissant les structures spatio-temporelles, la modélisation de structures multi-échelles, multi-marques, anisotropes
- des travaux appliqués sur l'inférence et la modélisation en épidémiologie, en écologie et en environnement,
- des travaux génériques sur l'implémentation logicielle de modèles de processus ponctuels spatio-temporels (package R dédié : stpp).
Mes recherches s'inscrivent principalement en statistique géométrique , géostatistique et à leur interface .


Statistique géométrique

Processus ponctuels spatio-temporels

Comprendre et modéliser une structure spatiale : les communautés adventices

Mes travaux sont également portés par des questions issues de l'agro-écologie. Je Je suis membre des projets ANR AgrobioSE et CESAB Disco-Weed. L'enjeu d'AgrobioSE est de conceptualiser des systèmes de culture permettant de limiter le recours aux intrants chimiques, tout en régulant les bio-agresseurs des cultures et en maintenant le potentiel de production et le revenu des exploitants. Disco-Weed vise quant à lui à fournir un cadre d'analyse théorique afin de quantifier la contribution relative des processus agronomiques et écologiques en jeu dans l'assemblage des espèces adventices (mauvaises herbes') et leur impact sur l'interaction adventices-production agricole. Dans ce contexte, je m'intéresse essentiellement à la distribution spatiale spatio-temporelle des communautés adventices à l'échelle du paysage. Les données relatives à la biodiversité végétale peuvent être modélisées par un processus ponctuel marqué, où la marque représente l'espèce. Le nombre d'espèces étant très grand (>100) les outils actuels d'analyse des processus ponctuels sont inefficaces, voire inutiles. Une réduction de la dimension du problème suppose de connaître les relations (inconnues) entre espèces. Passer par les indices est alors une pratique courante.

Haut de page

Géostatistique

Tester des ruptures spatiales

Les variations d'une variable environnementale peuvent être soit régulières, soit au contraire abruptes. Dans le premier cas, la modélisation par un champ aléatoire, éventuellement non stationnaire en moyenne, est parfaitement adaptée. En revanche, les variations brusques correspondent le plus souvent à des transitions, par exemple d'un type de sol à un autre. La détection des Zones de Changement Abrupt (ZCAs) pour des données spatialisées est la généralisation à deux dimensions de la détection de changement de régime (de rupture, en langage statistique) dans les séries temporelles. Nous 'effectuons en deux temps (Gabriel, Bacro, Allard, 2011). Tout d'abord nous détectons l'écart à la stationnarité afin d'identifier les zones où la variable présente des variations fortes. Ensuite, nous testons si les variations détectées sont significatives. J'ai complété cette approche par une étude de puissance statistique permettant d'optimiser l'échantillonnage des variables


Coupler géostatistique et algorithme EM

L'utilisation de l'EM en géostatistique n'est pas nouvelle, mais notre approche est différente et originale dans le sens où un des paramètres d'intérêt est un champ complet, et la variable observée n'a pas une relation simple (au sens statistique) avec les paramètres à estimer. En effet, notre objectif est de cartographier les dates d'apparition d'espèces sur la base des seules données fossiles et/ou archéologiques, et donc sur la base d'observations de présence et non de dates d'arrivées aux points d'observation. Pour cela, en collaboration avec C. Bradshaw et F. Saltré (Université d'Adélaïde), J. Chadoeuf (INRA-PACA), nous avons combiné un modèle de développement de population simple (Verhulst) à l'approche géostatistique. L'estimation du modèle est faite via l'algorithme EM: une étape d'estimation où l'on estime les dates d'apparition humaine conditionnellement à la connaissance du taux de croissance, une étape de maximisation où l'on estime le taux de croissance conditionnellement aux dates d'apparition.

Modéliser des données spatio-temporelles

Les progrès de l'instrumentation, des systèmes électroniques embarqués et de l'imagerie satellite génèrent de très grandes quantités de données, géolocalisées, répétées dans le temps et parfois assez fortement dépendantes (e.g. données climatiques ou issues de l'agriculture numérique). Les défis posés par ces données spatio-temporelles sont multiples : visualisation, définition de modèles pertinents et de leurs méthodes d'estimation, dans un contexte de données de (très) grande dimension.
Depuis 2014 je co-anime avec D. Allard, T. Opitz (BioSP, INRA-PACA) L. Bel et E. Parent (AgroParisTech) le réseau méthodologique RESSTE (RESeau Statistiques pour données Spatio-TEmporelles). Nous proposons une animation scientifique autour des modèles, méthodes et algorithmes pour les données spatio-temporelles, en fédérant des statisticiens de différents horizons et des modélisateurs des autres disciplines ayant à traiter de ce type de données, en confrontant les approches et points de vue des différents domaines des statistiques.
Nous avons en particulier réalisé une synthèse sur les méthodes statistiques et les packages du logiciel R existants pour gérer, visualiser, modéliser et prédire des données spatio-temporelles d'assez grande dimension (RESSTE, 2017), illustrée sur des données fournies par l'INERIS, concernant des données journalières et horaires de pollution pm2.5 et ozone à l'échelle de la France, sur une période d'environ un mois.

Haut de page

A l'interface de la statistique géométrique et de la géostatistique

Prédire l'intensité d'un processus ponctuel

M-Estimation

Ces travux s'inscrivent dans le cadre du projet ANR ROLSES (Robust and Optimal Locations for Sustainable Environment and Systems). Il s'agit d'un projet interdisciplinaire (géographie, optimisation et statistique). L'objectif est de fournir aux décideurs et aux aménageurs de l'espace géographique des informations fiables et pertinentes leur permettant d'évaluer les caractéristiques et propriétés de différents "centres" face à des configurations spatiales particulières de la demande.

M-estimateurs pondérés pour des données clusterisées

Nouveaux estimateurs adaptatifs de paramètres de localisation

Prix

Prix Marie-Jeanne Laurent-Duhamel 2006 de la Société Francaise de Statistique (SFdS).
Ce prix est décerné tous les trois ans pour la qualité du travail de thèse en recherche appliquée d'un jeune statisticien francophone.

Haut de page
Retour