본 논문은 Retrieval-Augmented Language Models (RALMs)의 성능 평가를 위한 새로운 프레임워크를 제시합니다. 기존 평가 벤치마크들이 단일 최적 접근 방식을 가정하는 한계를 극복하기 위해, 사용자의 니즈(Context-Exclusive, Context-First, Memory-First)와 상황(Context Matching, Knowledge Conflict, Information Irrelevant)을 다양하게 조합하여 RALMs를 평가합니다. HotpotQA, DisentQA, 그리고 새롭게 제작된 URAQ 데이터셋을 사용한 실험을 통해, 메모리 사용 제한이 역설적인 검색 상황에서는 강건성을 높이지만, 이상적인 검색 결과에서는 최고 성능을 저하시키며, 모델의 종류에 따라 행동 차이가 나타나는 것을 발견했습니다. 본 연구는 사용자 중심의 평가의 필요성을 강조하고 다양한 검색 상황에서 모델 성능을 최적화하는 데 대한 통찰력을 제공합니다.