본 논문은 Retrieval-Augmented Generation (RAG)에서 검색의 효용성을 평가하는 새로운 자동 평가 방법인 Semantic Perplexity (SePer)를 제안합니다. 기존 연구들이 검색과 생성 과정을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 검색의 실질적인 효용성을 측정하는 데 한계를 보인다는 점을 지적하며, SePer는 LLM의 내부적인 믿음을 기반으로 검색된 정보의 정확성을 포착하여 검색이 의미적 혼란도를 얼마나 감소시키는지를 측정합니다. 다양한 RAG 시나리오에서 SePer가 사람의 선호도와 일치하며, 검색 효용성을 더 정확하고 효율적으로 평가함을 실험을 통해 보여줍니다.