haebom
Sign In
The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora
Created by
Haebom
Category
Empty
저자
Chen Amiraz, Yaroslav Fyodorov, Elad Haramaty, Zohar Karnin, Liane Lewin-Eytan
개요
본 논문은 아랍어-영어 Cross-lingual Retrieval-Augmented Generation (RAG)을 연구하며, 실제 기업 데이터셋을 기반으로 한 도메인별 벤치마크를 사용하여 기존 연구의 한계를 극복하고자 한다. 특히, 사용자 쿼리와 지원 문서의 언어가 다른 경우 검색 성능 저하가 발생한다는 점을 발견하고, 이를 해결하기 위한 두 가지 간단한 검색 전략을 제시하여 성능을 향상시켰다.
시사점, 한계점
•
시사점:
◦
Cross-lingual RAG에서 검색이 중요한 병목 현상임을 밝힘.
◦
도메인별 환경에서 언어 간 검색 어려움을 확인.
◦
검색 성능 향상을 위한 간단한 전략 제시 (언어 균등 검색, 쿼리 번역).
◦
실제 RAG 애플리케이션에서 다국어 검색 개선 가능성을 보여줌.
•
한계점:
◦
제시된 검색 전략이 모든 언어 쌍에 일반화될 수 있는지에 대한 추가 연구 필요.
◦
특정 도메인 및 언어 쌍에 국한된 연구일 수 있음.
◦
개선된 검색 전략이 복잡한 환경에서도 효과적인지에 대한 검증 필요.
PDF 보기
Made with Slashpage