Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Annif à SemEval-2025 Tâche 5 : XMTC traditionnel complété par des LLM

Created by
  • Haebom

Auteur

Osma Suominen, Juho Inkinen, Mona Lehtinen

Contour

Cet article présente le système Annif d'indexation thématique utilisant des modèles linguistiques à grande échelle (LLM) dans la tâche 5 de SemEval-2025 (LLMs4Subjects). Cette tâche nécessitait de générer des prédictions thématiques à l'aide du vocabulaire thématique GND (Global Neural Network) pour les notices bibliographiques de la base de données bilingue TIBKAT. Le système Annif combine les techniques existantes de traitement du langage naturel et d'apprentissage automatique mises en œuvre dans la boîte à outils Annif avec une méthode innovante basée sur les LLM pour la traduction et la génération de données synthétiques, ainsi que pour la fusion de prédictions de modèles japonais. Lors des évaluations quantitatives, il s'est classé premier dans toutes les catégories de sujets, deuxième dans la catégorie tib-core-subject et quatrième dans les évaluations qualitatives. Ces résultats démontrent le potentiel de la combinaison de l'algorithme XMTC existant avec les techniques LLM modernes pour améliorer la précision et l'efficacité de l'indexation thématique dans les environnements multilingues.

Takeaways, Limitations

Takeaways:
La possibilité d'améliorer la précision et l'efficacité des tâches d'indexation de sujets multilingues en combinant les techniques existantes de traitement du langage naturel et d'apprentissage automatique avec les techniques basées sur LLM est présentée.
Les excellentes performances du système Annif confirment le potentiel d’avancement dans le domaine de l’indexation thématique utilisant LLM.
Présentation d’une approche efficace de l’indexation thématique dans un environnement multilingue.
Limitations:
Classé 4e dans l'évaluation qualitative, ce résultat diffère de celui de l'évaluation quantitative. Une explication détaillée des critères et des résultats de l'évaluation qualitative est nécessaire.
Manque de description détaillée du LLM et des autres techniques utilisées. Des informations complémentaires sont nécessaires pour garantir la reproductibilité.
👍