Best paper

IMIA Yearbook of Medical Informatics 2023

Depuis sa création en 1992, l’annuaire (yearbook) de l'informatique médicale de l'IMIA est l'une des publications les plus importantes de l'Association internationale d'informatique médicale (IMIA), non seulement pour ses membres, mais aussi pour l'ensemble de la communauté de l'informatique médicale et biomédicale. Il est conçu pour présenter une vue d'ensemble de la recherche de pointe et d'excellence dans le domaine de l'informatique médicale et biomédicale en fournissant des enquêtes sur les développements récents et des revues complètes sur des sujets pertinents du domaine.

Cette année, parmi les 539 références extraites de PubMed, le principal moteur de recherche de données bibliographiques couvrant l'ensemble des domaines de spécialisation de la biologie et de la médecine, seulement deux publications ont été sélectionnées pour recevoir le prix du meilleur article. L'une de ces publications est co-écrite par des chercheurs de l’UMR TETIS. Il s'agit d'un Data Paper présentant une méthodologie novatrice d'annotation de données textuelles visant à identifier des informations épidémiologiques à partir d'articles de presse.

Outre le protocole d’annotation, l’originalité de l’approche proposée réside dans l’identification d’informations épidémiologiques au niveau de la phrase. Cette échelle d’analyse permet de compléter la notion de pertinence attribuée à un article, une notion généralement binaire, en extrayant des thématiques épidémiologiques fines. Elle vise par exemple à identifier du contenu textuel relatif à des mesures de prévention, des voies de transmission de maladies ou encore des facteurs de risque.

Dans un souci de reproductibilité, la méthodologie d’annotation a été élaborée de manière itérative par des épidémiologistes et dans un contexte éminemment pluridisciplinaire. Bien qu’initialement conçue pour la veille en santé animale, elle peut être appliquée ou adaptée à des corpus en santé humaine ou végétale. L'article est accompagné d'un corpus annoté librement accessible sur le Dataverse du CIRAD.

La mise à disposition de données annotées revêt une importance cruciale pour les algorithmes d'Intelligence Artificielle (IA), ces données permettant d’entrainer, d’adapter (fine-tuning) et d’évaluer les modèles. Dans le contexte d'applications spécialisées, comme la veille en santé animale, ce type d'évaluation constitue un prérequis indispensable à l'intégration des modèles dans des outils et à leur utilisation quotidienne.

Cet article est le fruit d’une collaboration entre Mathieu Roche et Sarah Valentin de l’UMR TETIS et des chercheurs et épidémiologistes de l’UMR ASTRE et de l’institut belge de santé publique et animale Sciensano.