Dans un article récemment publié dans la revue Machine Learning, cinq chercheurs de l’UMR TETIS proposent une évaluation systématique des biais géographiques présents dans les modèles de langage (LMs).
Les auteurs ont cherché à déterminer si ces modèles représentent équitablement l’ensemble des régions du monde ou s’ils privilégient certaines zones géographiques au détriment d’autres.
Pour cela, un cadre original d’analyse a été introduit reposant sur quatre indicateurs complémentaires : l’analyse des tokenizers pour estimer la couverture géographique des données d’entraînement, l’évaluation des connaissances géographiques de base, l'analyse de corrélation entre distance sémantique et distance géographique ainsi que la cartographie des distorsions géographiques.
Ce protocole a été appliqué à dix modèles de langage largement utilisés, incluant des architectures encodeur et décodeur. Les résultats montrent une surreprésentation systématique des pays occidentaux et une sous-représentation marquée de nombreuses régions d’Afrique, d’Europe de l’Est et du Moyen-Orient. Ces déséquilibres se traduisent par des écarts mesurables de performance selon les zones géographiques.
L’étude met également en évidence l’impact concret de ces biais sur des tâches applicatives, notamment en réponse aux crises et catastrophes naturelles. Les régions les plus vulnérables sont souvent celles pour lesquelles les modèles sont les moins performants, soulignant un enjeu majeur d’équité dans le développement de l’intelligence artificielle à l’échelle mondiale.