Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems

Created by
  • Haebom

저자

Nandan Thakur, Suleman Kazi, Ge Luo, Jimmy Lin, Amin Ahmad

개요

기존 RAG 벤치마크는 휴리스틱 기반 지표를 사용하여 시스템을 평가하지만, 이는 참조를 위한 인간 선호도를 필요로 합니다. 반면, 시스템 간 경쟁을 하는 아레나 기반 벤치마크는 신뢰할 수 있는 평가를 위해 비용이 많이 드는 대규모 언어 모델(LLM)을 판정자로 필요로 합니다. 본 논문에서는 두 세계의 장점을 결합하는 간단하고 효율적인 기법을 제시합니다. 핵심 아이디어는 휴리스틱 지표를 입력으로 사용하여 LLM 판정자 예측을 출력하는 대리 판정자를 훈련하는 것입니다. 본 연구에서는 위키피디아를 기반으로 18개의 다양한 언어에 대한 합성 아레나 기반 RAG 벤치마크인 MIRAGE-Bench를 개발하여 다국어 답변 생성 평가에 중점을 둡니다. 휴리스틱 특징과 LLM 판정자를 광범위하게 결합하여 평가합니다. 19개의 다국어 LLM을 벤치마크하여 대리 판정자와 Bradley-Terry 프레임워크를 사용하는 GPT-4o 간에 높은 상관관계(Kendall Tau ($\tau$) = 0.909)를 관찰했습니다. 결과는 독점적이고 대규모 오픈소스 LLM이 현재 MIRAGE-Bench에서 우세함을 보여줍니다. 코드와 데이터셋은 https://github.com/vectara/mirage-bench 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
휴리스틱 지표와 LLM 판정자를 결합한 효율적인 RAG 벤치마크인 MIRAGE-Bench 제시.
다국어(18개 언어) 지원으로 다양한 언어 환경에서의 RAG 성능 평가 가능.
대리 판정자를 활용하여 LLM 판정자 사용에 따른 비용 절감.
현재 우수한 성능을 보이는 LLM 모델 식별 및 비교 가능.
코드와 데이터셋 공개를 통한 연구 재현성 및 확장성 제공.
한계점:
MIRAGE-Bench가 합성 데이터셋 기반이므로 실제 환경과의 차이 존재 가능성.
대리 판정자의 성능이 LLM 판정자에 의존적일 수 있음.
평가 지표의 한계로 인한 벤치마크 결과의 제한.
👍