TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval
Created by
Haebom
Category
Empty
저자
Ozay Ezerceli, Mahmoud El Hussieni, Selva Ta\c{s}, Reyhan Bayraktar, Fatma Betul Terzio\u{g}lu, Yusuf \c{C}elebi, Ya\u{g}{\i}z Asker
개요
본 논문은 형태학적으로 풍부하고 자원이 적은 터키어와 같은 언어에 대한 신경 정보 검색 시스템의 연구 부족 문제를 다룹니다. 터키어 검색을 위해 밀집 인코더와 late-interaction 모델을 비교하는 최초의 포괄적인 벤치마크인 TurkColBERT를 소개합니다. 두 단계 적응 파이프라인을 사용하여 영어 및 다국어 인코더를 터키어 NLI/STS 작업에 미세 조정하고, MS MARCO-TR에서 훈련된 PyLate를 사용하여 ColBERT 스타일 검색기로 변환합니다. 5개의 터키어 BEIR 데이터 세트에서 10개의 모델을 평가한 결과, 파라미터 효율성이 높고 (colbert-hash-nano-tr는 turkish-e5-large보다 600배 작지만 mAP의 71% 이상 유지) late-interaction 모델이 밀집 인코더보다 성능이 우수함을 확인했습니다. 또한, MUVERA+Rerank가 PLAID보다 빠르고 성능이 향상되어 낮은 대기 시간 검색을 가능하게 합니다.
시사점, 한계점
•
터키어 정보 검색에서 late-interaction 모델의 잠재력을 입증하고, 밀집 인코더보다 작으면서도 성능이 우수함을 보임.
•
파라미터 효율성이 높은 모델 제시.
•
MUVERA+Rerank 인덱싱 알고리즘을 통해 낮은 대기 시간 검색 가능성을 보여줌.
•
한계점: 중간 크기 데이터 세트(≤50K 문서)와 번역된 벤치마크에 의존하여 실제 터키어 검색 환경을 완전히 반영하지 못할 수 있음.