본 논문은 Retrieval-Augmented Generation (RAG)에서 검색의 효용성을 평가하는 새로운 자동 평가 방법인 Semantic Perplexity (SePer)를 제안합니다. 기존 연구들이 검색과 생성 과정을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 검색의 실질적인 유용성을 제대로 평가하지 못하는 한계를 극복하기 위해, SePer는 LLM의 내부적 신념을 통해 검색된 정보의 정확성을 측정하고, 검색 후 의미적 퍼플렉서티 감소 정도를 통해 검색의 유용성을 정량화합니다. 다양한 RAG 시나리오에서 SePer가 인간의 선호도와 잘 일치하며, 더 정확하고 효율적인 검색 유용성 평가를 제공함을 실험을 통해 보여줍니다.