Cet article présente une méthode efficace de classification de textes pour gérer le volume croissant de la littérature scientifique. Nous affinons des modèles de langage pré-entraînés (MLP) tels que BERT, SciBERT, BioBERT et BlueBERT sur le jeu de données Web of Science (WoS-46985) et les appliquons à la classification de textes scientifiques. Nous élargissons le jeu de données en ajoutant 1 000 articles par catégorie, correspondant aux principales catégories du WoS-46985, en exécutant sept requêtes ciblées sur la base de données WoS. Nous utilisons les MLP pour prédire les étiquettes des données non étiquetées et combinons les prédictions à l'aide d'une stratégie de vote ferme afin d'améliorer la précision et la confiance. L'affinement de l'ensemble de données élargi, utilisant des taux d'apprentissage dynamiques et un arrêt précoce, améliore significativement la précision de la classification, en particulier dans les domaines spécialisés. Nous démontrons que les modèles spécifiques à un domaine, tels que SciBERT et BioBERT, surpassent systématiquement les modèles génériques tels que BERT. Ces résultats mettent en évidence l’efficacité de l’augmentation des ensembles de données, de la prédiction d’étiquettes basée sur l’inférence, du vote dur et des techniques de réglage fin pour créer une solution robuste et évolutive pour la classification automatisée des textes académiques.