Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models

Created by
  • Haebom
Category
Empty

저자

Roksana Goworek, Olivia Macmillan-Scott, Eda B. Ozyi\u{g}it

개요

본 연구는 다국어 정보 검색(CLIR)의 어려움을 해결하기 위해 네 가지 개입 유형(문서 번역, 사전 훈련된 인코더를 사용한 다국어 밀집 검색, 단어, 구 및 쿼리-문서 수준의 대조 학습, 교차 인코더 재순위)을 체계적으로 평가합니다. 연구 결과, CLIR을 위해 특별히 훈련된 밀집 검색 모델이 어휘 매칭 방법보다 일관되게 우수하며 문서 번역으로부터 거의 이점을 얻지 못한다는 것을 발견했습니다. 대조 학습은 언어 편향을 완화하고 초기 정렬이 약한 인코더에 대해 상당한 개선을 가져오며, 재순위는 효과적일 수 있지만 교차 인코더 훈련 데이터의 품질에 달려 있습니다.

시사점, 한계점

시사점:
CLIR 시스템은 번역 기반 파이프라인보다 의미론적 다국어 임베딩과 타겟 학습 기반 정렬을 우선시해야 함. 특히, 서로 다른 스크립트 및 자원 부족 언어에 효과적임.
CLIR을 위해 훈련된 밀집 검색 모델은 어휘 매칭 방법보다 우수함.
대조 학습은 언어 편향을 완화하고 초기 정렬이 약한 인코더에 대한 성능 향상을 가져옴.
재순위는 효과적일 수 있지만, 교차 인코더 훈련 데이터 품질에 의존함.
한계점:
전반적인 성능은 여전히 고자원 언어에 의해 지배됨.
재순위의 효과는 훈련 데이터 품질에 따라 달라짐.
👍