Sign In

SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction

Created by
  • Haebom
Category
Empty

저자

Lu Dai, Yijie Xu, Jinhui Ye, Hao Liu, Hui Xiong

개요

본 논문은 Retrieval-Augmented Generation (RAG)에서 검색의 효용성을 평가하는 새로운 자동 평가 방법인 Semantic Perplexity (SePer)를 제안합니다. 기존 연구들이 검색과 생성 부분을 함께 평가하거나, NDCG와 같은 전통적인 지표를 사용하여 검색의 실제 유용성을 제대로 평가하지 못하는 한계를 지적하며, SePer는 RAG 프레임워크 내에서 정보 획득의 관점에서 검색 품질을 측정합니다. LLM의 검색 정보 정확성에 대한 내부적 믿음을 포착하여 검색 후 의미적 퍼플렉서티 감소 정도로 검색의 유용성을 정량화합니다. 실험 결과, SePer는 인간의 선호도와 일치하며 다양한 RAG 시나리오에서 검색 유용성을 더 정확하고 효율적으로 평가함을 보여줍니다.

시사점, 한계점

시사점:
RAG에서 검색의 효용성을 정확하게 평가할 수 있는 새로운 지표 SePer 제시
SePer는 인간의 평가와 높은 상관관계를 보이며 기존 지표보다 효율적이고 정확함
다양한 RAG 시나리오에서 적용 가능한 범용적인 평가 방법 제공
한계점:
SePer가 LLM의 내부적 믿음에 기반하기 때문에, LLM의 특성에 따라 평가 결과가 달라질 수 있음
SePer는 검색의 질을 평가하는 지표이지만, 생성 품질 자체에 대한 평가는 포함하지 않음
특정 LLM 모델에 대한 세밀한 조정이나 추가적인 보정이 필요할 수 있음
👍