본 논문은 Retrieval-Augmented Generation (RAG)에서 retrieval의 효과를 평가하는 새로운 방법론을 제시합니다. 기존 연구들이 retrieval과 generation을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 retrieval의 실제 유용성을 제대로 반영하지 못하는 한계를 지적하며, RAG 프레임워크 내에서 정보 이득(information gain) 관점에서 retrieval의 질을 측정하는 자동 평가 방법을 제안합니다. 구체적으로, LLM의 검색 정보 정확성에 대한 내부적 확신을 포착하는 Semantic Perplexity (SePer) 지표를 제시하고, retrieval이 semantic perplexity를 얼마나 감소시키는지로 retrieval의 유용성을 정량화합니다. 실험 결과, SePer는 사람의 선호도와 잘 일치하며, 다양한 RAG 시나리오에서 retrieval 유용성을 더 정확하고 효율적으로 평가할 수 있음을 보여줍니다.