본 논문은 Retrieval-Augmented Generation (RAG)에서 정보 검색의 효용성을 평가하는 새로운 자동 평가 방법인 Semantic Perplexity (SePer)를 제안합니다. 기존 연구들이 검색과 생성 과정을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 검색의 실질적인 유용성을 제대로 평가하지 못하는 한계를 극복하기 위해, SePer는 LLM의 내부적인 신념을 바탕으로 검색된 정보의 정확성을 측정하고, 검색 이후의 의미적 퍼플렉서티 감소 정도를 통해 검색의 유용성을 정량화합니다. 다양한 RAG 시나리오에서 SePer가 사람의 선호도와 잘 일치하고, 검색 유용성을 더 정확하고 효율적으로 평가함을 실험적으로 보여줍니다.