Article-level classification of scientific publications: A comparison of deep learning, direct citation and bibliographic coupling

Rivest, M., Vignola-Gagné, E., et Archambault, E. (2021). Article-level classification of scientific publications: A comparison of deep learning, direct citation and bibliographic coupling. PLoS ONE, 16(5), e0251493. https://doi.org/10.1371/journal.pone.0251493

Résumé

Les classifications des activités de recherche et des publications scientifiques sont fondamentales aux évaluations de telles activités, tant au niveau des organismes qu’au niveau des gouvernements. Il existe plusieurs classifications actuellement en usage, et chacune d’elles doit continuellement être mise à jour en faisant usage de techniques à la fine pointe et en intégrant des nouveaux champs de recherche en émergence. Les réseaux de neurones convolutifs, une composante de l’apprentissage profond, ont récemment permis de catégoriser des corpus de textes volumineux de manière novatrice et très performante. Cet article compare une technique d’apprentissage profond qui catégorise plus de 40 millions d’articles scientifiques et des dizaines de milliers de revues scientifiques. Il la compare à des techniques de couplage bibliographique, de citations directes et de classification manuelle, des approches couramment utilisées en bibliométrie et dans un contexte de politiques propres aux S&T, telles que l’octroi de financement. Les résultats démontrent que le rendement d’une approche par apprentissage profond est semblable aux approches bibliométriques fondées sur la théorie des graphes. Toutes les approches évaluées dans cet article se comparent également à la classification manuelle. Cependant, les approches automatisées ne performaient que légèrement mieux que la stratégie fondée sur les citations directes, qui correspond à une approche simple de propagation des étiquettes. En conclusion, l’apprentissage profond est une approche prometteuse puisqu’elle performe aussi bien que les autres alors qu’elle n’a toujours pas atteint son potentiel de perfectionnement. Par exemple, un réseau de neurones convolutif intégrant de l’information provenant d’un réseau de citations est vraisemblablement la clé pour développer un algorithme de classification encore plus performant.

Pour lire l'article.

Image : Par Christa Dodoo à Unsplash