본 논문은 Retrieval-Augmented Generation (RAG)에서 검색의 효용성을 평가하는 새로운 자동 평가 방법인 Semantic Perplexity (SePer)를 제안합니다. 기존 연구들이 검색과 생성 부분을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 검색의 실제 유용성을 제대로 평가하지 못하는 한계를 지적하며, SePer는 RAG 프레임워크 내에서 정보 획득의 관점에서 검색 품질을 측정합니다. LLM의 검색 정보 정확성에 대한 내부적 믿음을 포착하여 검색 후 의미적 퍼플렉서티 감소 정도로 검색의 유용성을 정량화합니다. 실험 결과, SePer는 인간의 선호도와 일치하며 다양한 RAG 시나리오에서 검색 유용성을 더 정확하고 효율적으로 평가함을 보여줍니다.