본 논문에서는 다국어 종단간 메타 평가 RAG 벤치마크(MEMERAG)를 제시합니다. 기존의 RAG 시스템 자동 평가는 영어 중심이거나 번역 데이터를 사용하여 문화적 뉘앙스를 제대로 반영하지 못하는 한계가 있었습니다. MEMERAG는 MIRACL 데이터셋을 기반으로 하여 다양한 대규모 언어 모델(LLM)을 사용하여 각 언어의 원어 질문에 대한 응답을 생성하고, 전문가의 신뢰성 및 관련성 평가를 통해 구축되었습니다. 본 논문은 주석 프로세스, 높은 주석자 간 일치율, 다양한 언어에 대한 LLM 성능 분석, 그리고 다국어 자동 평가기(LLM-as-a-judge) 벤치마킹 결과를 제시합니다. 향상된 프롬프팅 기법 및 LLM의 성능 개선을 신뢰성 있게 식별할 수 있음을 보여주며, 데이터셋은 깃허브에서 공개합니다.