Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval
Created by
Haebom
저자
Kidist Amde Mekonnen, Yosef Worku Alemneh, Maarten de Rijke
개요
본 논문은 아마하라어와 같이 저자원, 형태소가 풍부한 언어에 대한 효과적인 정보 검색을 위해 사전 훈련된 아마하라어 BERT 및 RoBERTa 백본 기반의 아마하라어 특화 밀집 검색 모델을 제시합니다. RoBERTa-Base-Amharic-Embed 모델(110M 파라미터)은 기존 최고 성능의 다국어 기준 모델인 Arctic Embed 2.0 (568M 파라미터)보다 MRR@10에서 17.6%, Recall@10에서 9.86% 향상된 성능을 보였습니다. 더 작은 RoBERTa-Medium-Amharic-Embed (42M) 모델 또한 경쟁력 있는 성능을 유지했습니다. 또한, ColBERT 기반의 후기 상호작용 검색 모델을 학습하여 모든 평가 모델 중 가장 높은 MRR@10 점수(0.843)를 달성했습니다. 아마하라어 정보 검색의 효과를 체계적으로 평가하기 위해 희소 및 밀집 검색 기준 모델과 비교 분석을 진행하였으며, 저자원 환경의 주요 과제를 강조하고 언어 특화 적응의 중요성을 보여줍니다. 본 연구의 데이터셋, 코드, 훈련된 모델을 공개적으로 공유합니다 (https://github.com/kidist-amde/amharic-ir-benchmarks).