Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Annif at SemEval-2025 Task 5: Traditional XMTC augmented by LLMs

Created by
  • Haebom

저자

Osma Suominen, Juho Inkinen, Mona Lehtinen

개요

본 논문은 SemEval-2025 Task 5 (LLMs4Subjects)에서 대규모 언어 모델(LLM)을 사용한 주제 색인 작업에 Annif 시스템을 제시한다. 이 과제는 이중 언어 TIBKAT 데이터베이스의 서지 기록에 대해 GND 주제 어휘를 사용하여 주제 예측을 생성하는 것을 요구했다. Annif 시스템은 Annif 툴킷에 구현된 기존의 자연어 처리 및 기계 학습 기술과 번역 및 합성 데이터 생성을 위한 혁신적인 LLM 기반 방법, 그리고 일어 모델의 예측 병합을 결합한다. 정량적 평가에서 모든 주제 범주에서 1위, tib-core-주제 범주에서 2위를 차지했고, 정성적 평가에서는 4위를 차지했다. 이러한 결과는 다국어 환경에서 주제 색인의 정확성과 효율성을 향상시키기 위해 기존 XMTC 알고리즘과 최신 LLM 기술을 결합하는 잠재력을 보여준다.

시사점, 한계점

시사점:
기존의 자연어 처리 및 기계 학습 기법과 LLM 기반 기법의 결합을 통해 다국어 주제 색인 작업의 정확도 및 효율성 향상 가능성 제시.
Annif 시스템의 우수한 성능을 통해 LLM을 활용한 주제 색인 분야의 발전 가능성 확인.
다국어 환경에서의 주제 색인 작업에 대한 효과적인 접근 방식 제시.
한계점:
정성적 평가에서 4위를 차지하여 정량적 평가 결과와의 차이점이 존재. 정성적 평가 기준 및 결과에 대한 자세한 설명 필요.
사용된 LLM 및 기타 기술에 대한 세부적인 설명 부족. 재현성 확보를 위한 추가 정보 제공 필요.
👍