Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Tarea 5 de Annif en SemEval-2025: XMTC tradicional ampliado con LLM

Created by
  • Haebom

Autor

Osma Suominen, Juho Inkinen, Mona Lehtinen

Describir

Este artículo presenta el sistema Annif para la indexación de temas mediante modelos lingüísticos a gran escala (LLM) en la Tarea 5 de SemEval-2025 (LLMs4Subjects). Esta tarea requirió la generación de predicciones de temas utilizando el vocabulario temático de la Red Neuronal Global (GND) para registros bibliográficos en la base de datos bilingüe TIBKAT. El sistema Annif combina técnicas existentes de procesamiento del lenguaje natural y aprendizaje automático implementadas en el kit de herramientas Annif con un innovador método basado en LLM para la traducción y generación de datos sintéticos, así como la fusión de predicciones de modelos japoneses. En evaluaciones cuantitativas, ocupó el primer lugar en todas las categorías de temas, el segundo en la categoría tib-core-subject y el cuarto en evaluaciones cualitativas. Estos resultados demuestran el potencial de combinar el algoritmo XMTC existente con técnicas modernas de LLM para mejorar la precisión y la eficiencia de la indexación de temas en entornos multilingües.

Takeaways, Limitations

Takeaways:
Se presenta la posibilidad de mejorar la precisión y eficiencia de las tareas de indexación de temas multilingües combinando técnicas existentes de procesamiento del lenguaje natural y aprendizaje automático con técnicas basadas en LLM.
El excelente desempeño del sistema Annif confirma el potencial de avance en el campo de la indización de temas utilizando LLM.
Presentamos un enfoque eficaz para la indexación de temas en un entorno multilingüe.
Limitations:
Ocupa el cuarto lugar en la evaluación cualitativa, lo que difiere de los resultados de la evaluación cuantitativa. Se requiere una explicación detallada de los criterios y resultados de la evaluación cualitativa.
Falta de una descripción detallada del LLM y otras técnicas utilizadas. Se necesita información adicional para garantizar la reproducibilidad.
👍