- Site officiel

Martin Lentschat, Soutenance de thèse le 14 décembre 2021

À la Maison de la Télédétection(500 rue Jean François Breton, 34090 Montpellier).

Titre de la thèse : Instanciation de relations n-Aires dans des articles scientifiques guidée par une Ressource Termino-Ontologique de domaine.

Résumé : L'extraction d'information depuis des articles scientifiques est importante pour la mise à disposition, la valorisation et l'exploitation des connaissances créées par la communauté scientifique. Ces connaissances sont formalisées dans une Ressource Termino-Ontologique (RTO) permettant de définir les relations n-Aire d'intérêt et de guider l'extraction. La méthode proposée dans cette thèse a été appliquée à l'extraction de mesures de perméabilité aux gaz d'emballages alimentaires. Les principaux obstacles à l'extraction automatique proviennent de la multiplicité des instances de relations n-Aires présentes dans chaque document et à la dispersion de leurs instances d'arguments dans les différentes sections des articles.
Afin de contribuer à la levée de ces verrous, j'ai conçu des représentations multi-descripteurs qui sont exploitées dans un pipeline complet d'extraction semi-automatique.
J'ai opté pour une extraction en deux temps : (1) l'extraction dans les textes des instances d'arguments composants les relations n-Aires et ensuite (2) la reconstruction des instances de relations n-Aires. Lors de l'étape (1), une représentation nommée Scientific Publication Representation (SciPuRe) composée de descripteurs ontologiques, lexicaux et structurels est associée à chaque instance d'argument reconnue. Les descripteurs de SciPuRe sont utilisés dans des stratégies de mesures de la pertinence des instances d'arguments, reposant sur des approches distinctes pour les arguments symboliques et quantitatifs.
Lors de l'étape (2), une représentation des instances de relations n-Aires nommée Scientific Table Representation (STaRe) est proposée. Elle est initialisée à partir des instances de relations partielles extraites des tableaux des articles scientifiques. Les représentations SciPuRe et STaRe sont ensuite utilisées de manière conjointe afin de compléter les relations n-Aires partielles avec les instances d'arguments du texte. La méthode proposée s'appuie sur trois approches : la première repose sur l'utilisation de la structure de documents, la seconde sur la recherche de cooccurrences et la troisième sur l'utilisation de scores de similarité générés par des modèles de plongements lexicaux.

Cette thèse se tiendra devant le jury composé de :
Patrice BELLOT, Professeur, Université Aix-Marseille – UMR LIS, Rapporteur
Nathalie PERNELLE, Professeure, Université Sorbonne Paris Nord – UMR LIPN, Rapportrice
Nathalie AUSSENAC-GILLES, Directrice de Recherche, CNRS – UMR IRIT, Examinatrice
Konstantin TODOROV, Maître de Conférences HDR, Univ. Montpellier – UMR LIRMM, Examinateur
Patrice BUCHE, Ingénieur de Recherche HDR, INRAE – UMR IATE, Directeur
Juliette DIBIE, Directrice de Recherche, INRAE – UMR MIA Paris, Co-Directrice
Mathieu ROCHE, Directeur de Recherche, CIRAD – UMR TETIS, Co-Directeur

 

Pour en savoir + : http://www.theses.fr/s213955