Sign In

SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction

Created by
  • Haebom
Category
Empty

저자

Lu Dai, Yijie Xu, Jinhui Ye, Hao Liu, Hui Xiong

개요

본 논문은 Retrieval-Augmented Generation (RAG)에서 검색의 효용성을 평가하는 새로운 자동 평가 방법인 Semantic Perplexity (SePer)를 제안합니다. 기존 연구들이 검색과 생성 과정을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 검색의 실질적인 효용성을 측정하는 데 한계를 보인다는 점을 지적하며, SePer는 LLM의 내부적인 믿음을 기반으로 검색된 정보의 정확성을 포착하여 검색이 의미적 혼란도를 얼마나 감소시키는지를 측정합니다. 다양한 RAG 시나리오에서 SePer가 사람의 선호도와 일치하며, 검색 효용성을 더 정확하고 효율적으로 평가함을 실험을 통해 보여줍니다.

시사점, 한계점

시사점: RAG 시스템의 검색 성능 평가에 대한 새로운 관점을 제시하고, 기존 방식의 한계를 극복하는 효과적인 자동 평가 지표인 SePer를 제공합니다. LLM의 내부적 상태를 활용하여 검색의 실질적인 효용성을 정량적으로 측정할 수 있는 가능성을 열었습니다. 사람의 평가와 높은 상관관계를 보임으로써 실제 성능을 잘 반영함을 입증했습니다.
한계점: SePer는 LLM의 내부적 상태에 의존하므로, 특정 LLM 모델에 대한 의존성이 존재할 수 있습니다. 다양한 LLM 모델과 RAG 시스템에 대한 일반화 가능성에 대한 추가 연구가 필요합니다. SePer가 모든 종류의 RAG 시나리오에 적용 가능한지에 대한 추가적인 검증이 필요합니다.
👍