개요:
본 논문은 대규모 언어 모델(LLM)의 환각 현상을 완화하는 데 효과적인 Retrieval-augmented generation (RAG) 시스템의 견고성을 평가하기 위한 새로운 벤치마크, RAGuard를 소개합니다. RAG 시스템은 오해의 소지가 있거나 상충되는 정보에 노출될 때 일관성을 유지하는 데 어려움을 겪으며, 특히 정치와 같은 실제 환경에서 문제가 됩니다. RAGuard는 기존의 합성 노이즈 기반 벤치마크와 달리, Reddit 토론에서 수집된 실제적인 허위 정보를 기반으로 한 팩트 체킹 데이터셋을 활용합니다. 이 데이터셋은 검색된 증거를 지지, 오해의 소지, 관련 없음의 세 가지 유형으로 분류하여 RAG 시스템이 다양한 유형의 증거를 얼마나 잘 처리하는지 평가합니다.