Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Amélioration de la classification scientifique des textes : modèles affinés avec extension des ensembles de données et vote rigoureux

Created by
  • Haebom

Auteur

Zhyar Rzgar K Rostam, G abor Kert esz

Contour

Cet article présente une méthode efficace de classification de textes pour gérer le volume croissant de la littérature scientifique. Nous affinons des modèles de langage pré-entraînés (MLP) tels que BERT, SciBERT, BioBERT et BlueBERT sur le jeu de données Web of Science (WoS-46985) et les appliquons à la classification de textes scientifiques. Nous élargissons le jeu de données en ajoutant 1 000 articles par catégorie, correspondant aux principales catégories du WoS-46985, en exécutant sept requêtes ciblées sur la base de données WoS. Nous utilisons les MLP pour prédire les étiquettes des données non étiquetées et combinons les prédictions à l'aide d'une stratégie de vote ferme afin d'améliorer la précision et la confiance. L'affinement de l'ensemble de données élargi, utilisant des taux d'apprentissage dynamiques et un arrêt précoce, améliore significativement la précision de la classification, en particulier dans les domaines spécialisés. Nous démontrons que les modèles spécifiques à un domaine, tels que SciBERT et BioBERT, surpassent systématiquement les modèles génériques tels que BERT. Ces résultats mettent en évidence l’efficacité de l’augmentation des ensembles de données, de la prédiction d’étiquettes basée sur l’inférence, du vote dur et des techniques de réglage fin pour créer une solution robuste et évolutive pour la classification automatisée des textes académiques.

Takeaways, Limitations

Takeaways:
Nous démontrons que la combinaison de l’augmentation des ensembles de données, de la prédiction d’étiquettes basée sur l’inférence, du vote dur et des techniques de réglage fin peut améliorer la précision et l’efficacité de la classification de la littérature scientifique.
Nous confirmons que les PLM spécifiques à un domaine (SciBERT, BioBERT) sont plus adaptés à la classification de la littérature scientifique que les PLM à usage général (BERT).
La méthodologie de cette étude fournit un cadre général qui peut être appliqué à la classification de textes dans d’autres domaines.
Limitations:
ÉTant donné que l’ensemble de données a été construit sur la base de la base de données WoS, des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité à d’autres bases de données ou ensembles de données.
Une analyse comparative des performances est nécessaire en appliquant d’autres méthodes d’ensemble que la stratégie de vote dur utilisée.
Les améliorations de performances pour des domaines spécifiques peuvent dépendre de la taille et de la qualité de l’ensemble de données. Des expériences supplémentaires sur des ensembles de données de différentes tailles et qualités sont donc nécessaires.
👍