- Site officiel

Valentin Sarah 

Extraction et agrégation d’informations issues de données multi-sources pour la veille internationale des maladies animales infectieuses.

Thésard : Valentin Sarah  
Contact - Lieu d'accueil : Cirad - UMR Tetis et Astre
Tél. :33 (0)4 67 59 41 95 
Organisme d'accueil : Cirad
Directeur(trice) de thèse : Mathieu Roche (Cirad)
Encadrement à Tetis : Renaud Lancenot (Cirad)
Autre(s) encadrant(s) : 
Axe(s) Tetis concerné(s) : SISO
Contexte/Cadre du thésard : 
Début - Fin : 01/09/2017 - 31/08/2020
Soutenance prévue le : 24/09/2020
Résumé : L’intelligence épidémiologique a pour but de détecter, d’analyser et de surveiller au cours du temps les potentielles menaces sanitaires. Ce processus de surveillance repose sur des sources dites formelles, tels que les organismes de santé officiels, et des sources dites informelles, comme les médias.
La veille des sources informelles est réalisée au travers de la surveillance basée sur les événements (event-based surveillance en anglais). Ce type de veille requiert le développement d’outils dédiés à la collecte et au traitement de données textuelles non structurées publiées sur le Web. Cette thèse se concentre sur l’extraction et la combinaison d’informations épidémiologiques extraites d’articles de presse en ligne, dans le cadre de la veille des maladies infectieuses animales.
Le premier objectif de cette thèse est de proposer et de comparer des approches pour améliorer l’identification et l’extraction d’informations épidémiologiques pertinentes à partir du contenu d’articles. Le second objectif est d’étudier l’utilisation de descripteurs épidémiologiques (i.e. maladies, hôtes, localisations et dates) dans le contexte de l’extraction d’événements et de la mise en relation d’articles similaires au regard de leur contenu épidémiologique. Dans ce manuscrit, nous proposons de nouvelles représentations textuelles fondées sur la sélection, l’expansion et la combinaison de descripteurs épidémiologiques.
Nous montrons que l’adaptation et l’extension de méthodes de fouille de texte et de classification permet d’améliorer l’utilisation des articles en ligne tant que source de données sanitaires. Nous mettons en évidence le rôle de l’expertise quant à la pertinence et l’interprétabilité de certaines des approches proposées.
Bien que nos travaux soient menés dans le contexte de la surveillance de maladies en santé animale, nous discutons des aspects génériques des méthodes proposées, vis-à-vis de de maladies inconnues et dans un contexte One Health (« une seule santé »).