Retrieval-Augmented Generation (RAG) 시스템의 성능 평가를 위한 새로운 벤치마크 데이터셋 MIRAGE를 제시합니다. MIRAGE는 7,560개의 질문-답변 인스턴스와 37,800개의 검색 풀로 구성되어 있으며, 검색 및 생성 과정을 효율적이고 정확하게 평가할 수 있도록 설계되었습니다. 기존 RAG 평가의 한계점을 극복하기 위해, 노이즈 취약성, 문맥 수용성, 문맥 무감각성, 문맥 오해 등을 포함하는 RAG 적응성을 측정하는 새로운 평가 지표를 제안합니다. 다양한 Retriever-LLM 조합에 대한 실험을 통해 최적의 모델 조합 및 RAG 시스템 내의 미묘한 상호작용에 대한 새로운 통찰력을 제공합니다. 데이터셋과 평가 코드는 공개적으로 제공됩니다.