MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems
Created by
Haebom
저자
Nandan Thakur, Suleman Kazi, Ge Luo, Jimmy Lin, Amin Ahmad
개요
기존 RAG 벤치마크는 휴리스틱 기반 지표를 사용하여 시스템을 평가하지만, 이는 참조를 위한 인간 선호도를 필요로 합니다. 반면, 시스템 간 경쟁을 하는 아레나 기반 벤치마크는 신뢰할 수 있는 평가를 위해 비용이 많이 드는 대규모 언어 모델(LLM)을 판정자로 필요로 합니다. 본 논문에서는 두 세계의 장점을 결합하는 간단하고 효율적인 기법을 제시합니다. 핵심 아이디어는 휴리스틱 지표를 입력으로 사용하여 LLM 판정자 예측을 출력하는 대리 판정자를 훈련하는 것입니다. 본 연구에서는 위키피디아를 기반으로 18개의 다양한 언어에 대한 합성 아레나 기반 RAG 벤치마크인 MIRAGE-Bench를 개발하여 다국어 답변 생성 평가에 중점을 둡니다. 휴리스틱 특징과 LLM 판정자를 광범위하게 결합하여 평가합니다. 19개의 다국어 LLM을 벤치마크하여 대리 판정자와 Bradley-Terry 프레임워크를 사용하는 GPT-4o 간에 높은 상관관계(Kendall Tau ($\tau$) = 0.909)를 관찰했습니다. 결과는 독점적이고 대규모 오픈소스 LLM이 현재 MIRAGE-Bench에서 우세함을 보여줍니다. 코드와 데이터셋은 https://github.com/vectara/mirage-bench 에서 공개적으로 이용 가능합니다.