Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Avances en la clasificación de textos científicos: modelos optimizados con expansión de conjuntos de datos y votación directa

Created by
  • Haebom

Autor

Zhyar Rzgar K Rostam, G abor Kert esz

Describir

Este artículo presenta un método eficiente de clasificación de textos para gestionar el creciente volumen de literatura científica. Ajustamos modelos de lenguaje pre-entrenados (PLMs) como BERT, SciBERT, BioBERT y BlueBERT en el conjunto de datos de Web of Science (WoS-46985) y los aplicamos a la clasificación de textos científicos. Expandimos el conjunto de datos añadiendo 1,000 artículos por categoría, coincidiendo con las categorías principales de WoS-46985, mediante la ejecución de siete consultas dirigidas en la base de datos de WoS. Usamos PLMs para predecir etiquetas para datos no etiquetados y combinamos las predicciones usando una estrategia de votación dura para mejorar la precisión y la confianza. El ajuste fino en el conjunto de datos expandido usando tasas de aprendizaje dinámico y detención temprana mejora significativamente la precisión de la clasificación, especialmente en dominios especializados. Demostramos que los modelos específicos de dominio como SciBERT y BioBERT superan consistentemente a los modelos de propósito general como BERT. Estos resultados resaltan la eficacia de la ampliación de conjuntos de datos, la predicción de etiquetas basada en inferencia, la votación dura y las técnicas de ajuste para crear una solución robusta y escalable para la clasificación automatizada de textos académicos.

Takeaways, Limitations

Takeaways:
Demostramos que la combinación de aumento de conjuntos de datos, predicción de etiquetas basada en inferencia, votación dura y técnicas de ajuste fino puede mejorar la precisión y la eficiencia de la clasificación de la literatura científica.
Confirmamos que los PLM específicos de dominio (SciBERT, BioBERT) son más adecuados para clasificar la literatura científica que los PLM de propósito general (BERT).
La metodología de este estudio proporciona un marco general que puede aplicarse a la clasificación de textos en otros dominios.
Limitations:
Dado que el conjunto de datos se construyó a partir de la base de datos WoS, se necesita más investigación para determinar su generalización a otras bases de datos o conjuntos de datos.
Es necesario realizar un análisis comparativo del desempeño aplicando otros métodos de conjunto distintos de la estrategia de votación dura utilizada.
Las mejoras de rendimiento para dominios específicos pueden depender del tamaño y la calidad del conjunto de datos, por lo que se necesitan más experimentos con conjuntos de datos de distintos tamaños y calidades.
👍