Intégration de données épidémiologiques et environnementales pour améliorer les systèmes de surveillance épidémiologique

Thèse de doctorat de Bahdja Boudoua

Thèse de doctorat de Bahdja Boudoua

Intégration de données épidémiologiques et environnementales pour améliorer les systèmes de surveillance épidémiologique

Bahdja Boudoua a soutenu avec succès sa thèse de doctorat intitulée « Intégration des données épidémiologiques et des données environnementales pour l’amélioration des systèmes de surveillance basés sur les évènements », le lundi 14 octobre à la Maison de la Télédétection, thèse dont voici le résumé :

Les systèmes de surveillance basée sur les événements (SBE) tels que HealthMap, ProMED et PADI-web sont utilisés quotidiennement afin de détecter des événements épidémiologiques signalés dans les médias en ligne (articles). Une fois les articles collectés, ces systèmes s'appuient sur des algorithmes de classification supervisée et/ou une modération humaine pour classer les articles selon leur pertinence.

L'application de telles méthodes peut être difficile, car les jeux de données épidémiologiques ne sont pas équilibrés. D'autre part, l'annotation d'articles, qui sert à l'apprentissage des méthodes supervisées, est coûteuse et chronophage. De plus, les facteurs de risque liés à l'apparition et transmission des maladies (facteurs de risque environnementaux et épidémiologiques) ne se trouvent pas toujours dans les données textuelles et ne sont donc pas pris en compte par les systèmes de SBE.

Dans ce contexte, nous proposons une approche non-supervisée qui s'appuie sur les informations spatio-temporelles des événements épidémiologiques détectés, pour classer les articles  en tenant compte des facteurs environnementaux par le biais de cartes de risques. Cette méthode, appelée EpiDCA, est une adaptation de l'algorithme des cellules dendritiques (DCA), inspirée par la théorie du danger. EpiDCA se caractérise par des paramètres définis par des experts, ce qui le rend applicable à différentes maladies et contextes environnementaux. La méthode proposée a été testée sur un premier jeu de données relatif à l'influenza aviaire en Asie entre 2018 et 2019, ainsi qu'une carte de risque produite pour la même région. Pour  l'évaluer, nous avons calculé la précision, le rappel et le F-score. EpiDCA a obtenu une très bonne performance avec un F-score de 0,82 pour un jeu de données déséquilibré et de 0,90 pour un ensemble de données équilibré. Les résultats ont également confirmé que la prise en compte des facteurs de risque des maladies est une bonne approche pour la classification des événements. EpiDCA a ensuite été comparé aux méthodes d'apprentissage supervisé et s'est avéré compétitif.
Après cette application initiale, l'objectif était d'évaluer la robustesse et la généricité de la méthode dans différents contextes géographiques et à travers divers systèmes épidémiologiques, notamment une maladie animale transfrontalière (la peste porcine africaine) et une maladie zoonotique vectorielle (la fièvre du Nil occidental) en Europe. Nous avons construit un jeu de données original à partir des articles détectés par PADI-web. Nous avons également développé une méthode d'annotation pour labelliser les articles. Nous avons ensuite proposé une extension de la méthode qui permet d'intégrer des covariables supplémentaires pour l'améliorer en termes de réactivité et de précision. Les perspectives avec EpiDCA incluent la réduction du nombre de paramètres et l'application du modèle à d'autres contextes de surveillance qui s'appuient sur les mêmes types de sources, tels que les maladies végétales et  la sécurité alimentaire.
Cette thèse pluridisciplinaire, à la croisée de l’informatique et de l’épidémiologie, s’inscrivait dans le cadre du projet MOOD (Monitoring Outbreaks for Disease Surveillance in a Data Science Context). Ce projet a pour objectif d’améliorer la surveillance sanitaire en s’appuyant sur des méthodes innovantes d’analyse de données. Bahdja Boudoua a fait partie de l'équipe MISCA au sein de l'UMR TETIS et a été encadré par Maguelonne Teisseire, Annelise Tran et Mathieu Roche. Durant sa thèse, Bahdja a participé aux présentations mensuelles du groupe Santé, a animé un workshop autour de PADI-web lors des derniers ateliers THEIA, et a contribué, entre autres, à l'organisation d'un hackathon dans le cadre d'une école d'été à Montpellier organisée par le projet MOOD.
Dernières actualités