Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs

Created by
  • Haebom
Category
Empty

저자

Osma Suominen, Juho Inkinen, Mona Lehtinen

개요

본 논문은 SemEval-2025 Task 5 (LLMs4Subjects)에서 제시된 Annif 시스템을 소개한다. 이 과제는 대규모 언어 모델(LLM)을 사용하여 서지 기록에 대한 주제 색인을 생성하는 것을 목표로 하며, 이중 언어 TIBKAT 데이터베이스의 기록에 대해 GND 주제 어휘를 사용하여 주제 예측을 생성해야 했다. Annif 시스템은 Annif 툴킷에 구현된 기존 자연어 처리 및 기계 학습 기술과 번역 및 합성 데이터 생성을 위한 혁신적인 LLM 기반 방법, 그리고 일어 모델 예측 병합을 결합한다. 정량적 평가에서 모든 주제 범주에서 1위, tib-core-주제 범주에서 2위를 차지했으며, 정성적 평가에서는 4위를 차지했다. 이러한 결과는 다국어 환경에서 주제 색인의 정확성과 효율성을 향상시키기 위해 기존 XMTC 알고리즘과 최신 LLM 기술을 결합하는 잠재력을 보여준다.

시사점, 한계점

시사점:
기존 자연어 처리 기술과 LLM 기술의 결합을 통해 다국어 환경에서 주제 색인의 정확도와 효율성 향상 가능성을 제시.
Annif 시스템이 SemEval-2025 Task 5에서 우수한 성능을 달성하여 제안된 접근 방식의 실효성을 입증.
LLM 기반 번역 및 합성 데이터 생성 기법의 유용성을 확인.
한계점:
정성적 평가에서 4위를 차지하여 정량적 평가 결과와의 차이를 분석하고 개선할 필요가 있음.
Annif 시스템의 성능 향상에 기여한 요소에 대한 보다 자세한 분석이 필요.
다양한 언어 및 데이터셋에 대한 일반화 가능성에 대한 추가 연구 필요.
👍