Client : UNESCO
Publié : juin 2021
L’UNESCO a mandaté Science-Metrix afin d’obtenir des données pour le Rapport sur la science 2021. Ce contrat suit le précédent contrat complété avec succès dans le cadre duquel Science-Metrix a fourni des données pour l’édition du rapport de 2015. Pour cette nouvelle édition, Science-Metrix a développé une méthodologie et des indicateurs pour dénombrer les articles scientifiques propres à 57 thèmes liés aux Objectifs de développement durable (ODD) des Nations unies. Chaque thème a été analysé distinctement les uns des autres, de sorte que 57 ensembles d’articles ont été bâtis. Ce travail acharné nous a servi dans plusieurs études subséquentes, et nous continuons de perfectionner la méthodologie afin de bâtir des ensembles d’articles propres à ces thèmes des plus exhaustifs.
Afin d’obtenir des standards de qualité des plus élevés, le travail qui consistait à bâtir les ensembles d’articles a été effectué manuellement par des analystes d’expérience aptes à équilibrer la portée et la précision d’ensembles d’articles. La première étape qui consiste à bâtir un ensemble thématique d’articles était de choisir un ensemble de mots-clés fondamentaux et des revues scientifiques propres à un thème. Ces mots-clés et revues ont ensuite été utilisés pour définir un ensemble d’articles très concis qui a servi en quelque sorte de semence, ensuite utilisé pour l’approfondir et le développer davantage pour ultimement obtenir un ensemble d’articles complet et mûr. Cette étape nécessite un certain tact, et lorsque c’était possible, les ensembles d’articles concis étaient définis par des analystes familiarisés avec les thèmes abordés. Lorsque ce ne l’était pas, les analystes ont effectué une revue de la littérature sur les thèmes afin de développer une certaine compréhension fondamentale sur le sujet. Les articles sélectionnés à l’aide des mots-clés ont été examinés afin d’assurer leur pertinence aux thèmes abordés.
Les mots-clés qui capturaient trop d’articles peu pertinents ont été retirés ou combinés à d’autres mots-clés. Par exemple, un des thèmes portait sur la recherche sur le sida et le VIH. Le mot-clé « AIDS », traduction anglaise de « sida », est aussi une traduction anglaise du mot « aide » au pluriel. Lorsqu’il est utilisé seul, il capture plusieurs articles sur les prothèses auditives (hearing aids) et l’aide à l’apprentissage (learning aids), pour ne nommer que deux exemples. Cette requête a donc été modifiée pour exclure tous les articles n’ayant aucun lien avec le sida. À cette étape, les analystes ont priorisé la précision (maintenue à au moins 95 %) aux dépens du rappel des ensembles d’articles, qui était sous la barre des 60 % dans certains cas.
Afin de développer les ensembles d’articles concis, les analystes ont développé un outil spécialisé qui calcule tout d’abord le TF-IDF (de l’anglais : term frequency-inverse document frequency) de tous les mots-clés (en faisant usage d’un algorithme de traitement automatique du langage naturel) apparaissant dans les articles inclus dans les ensembles d’articles concis afin de faciliter l’ajout de mots-clés tout aussi pertinents. L’outil calcule aussi le nombre d’articles additionnels que chacun des nouveaux mots-clés apporte aux ensembles d’articles, ce qui facilite les choix des mots-clés pertinents supplémentaires qui ont une influence mesurable sur le rappel des ensembles d’articles.
L’outil permet aussi d’évaluer la précision de chaque mot-clé avant de les inclure dans la requête. Le rappel des ensembles d’articles est continuellement mis à jour au fur et à mesure que des mots-clés sont ajoutés à la requête. Il était aussi possible de définir des référents autres que les ensembles d’articles concis pour mesurer le rappel des ensembles d’articles finaux, ce qui a permis d’observer des biais thématiques. L’outil calcule aussi la proportion des articles de chaque revue scientifique qui se retrouvent dans les ensembles d’articles au fur et à mesure que des mots-clés sont ajoutés à la requête. Avec cette information, les analystes ont pu choisir des revues très pertinentes aux thèmes abordés, et ils ont analysé leur contenu en profondeur afin d’évaluer si leur contenu complet pouvait être inclus dans les ensembles d’articles. Ce travail s’est répété jusqu’à tant qu’il n’y ait plus de mots-clés à inclure dans la requête ou de revues à analyser. À cette étape, le rappel était généralement satisfaisant (> 70 %) et la précision était élevée (> 90 %).
Même à cette étape, d’autres vérifications ont été faites à l’aide de l’outil. La première consistait à examiner les mots-clés qui ont capturé un grand nombre d’articles mais qui ont peu contribué à améliorer le rappel. Ceci était un signe que de tels mots-clés étaient peu pertinents ou bien que les ensembles d’articles concis capturaient mal une facette des thématiques. Une autre vérification consistait à catégoriser les articles aux champs de la science en utilisant la classification de Science-Metrix afin d’exclure ceux qui manquaient de pertinence. Les analystes ont aussi vérifié l’affiliation des auteurs de certains articles afin de s’assurer qu’elle s’alignait bien aux thèmes abordés. Finalement, le rappel de chaque revue a été mesuré, ce qui a permis de trouver des biais dans des sujets de recherche propres à un thème en particulier, puisque certaines revues spécialisées avaient un rappel inférieur à d’autres.
À propos du Rapport de l’UNESCO sur la science 2021
« Cette septième édition du [Rapport de l’UNESCO sur la science] suit la trajectoire de développement adoptée par les pays du monde au cours de ces cinq dernières années, du point de vue de la gouvernance scientifique. Elle documente la rapide transformation sociétale en cours, qui offre de nouvelles possibilités d'expérimentation sociale et économique, mais qui risque aussi d'exacerber les inégalités sociales, à moins que des mesures ne soient mis[es] en place. » – UNESCO
Consultez le rapport complet en cliquant ici (en anglais).
Lire le résumé directif en cliquant ici.
Image : iStock Photo