본 논문은 SemEval-2025 Task 5 (LLMs4Subjects)에서 제시된 Annif 시스템을 소개한다. 이 과제는 대규모 언어 모델(LLM)을 사용하여 서지 기록에 대한 주제 색인을 생성하는 것을 목표로 하며, 이중 언어 TIBKAT 데이터베이스의 기록에 대해 GND 주제 어휘를 사용하여 주제 예측을 생성해야 했다. Annif 시스템은 Annif 툴킷에 구현된 기존 자연어 처리 및 기계 학습 기술과 번역 및 합성 데이터 생성을 위한 혁신적인 LLM 기반 방법, 그리고 일어 모델 예측 병합을 결합한다. 정량적 평가에서 모든 주제 범주에서 1위, tib-core-주제 범주에서 2위를 차지했으며, 정성적 평가에서는 4위를 차지했다. 이러한 결과는 다국어 환경에서 주제 색인의 정확성과 효율성을 향상시키기 위해 기존 XMTC 알고리즘과 최신 LLM 기술을 결합하는 잠재력을 보여준다.