Sign In

Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals

Created by
  • Haebom
Category
Empty

저자

Linda Zeng, Rithwik Gupta, Divij Motwani, Diji Yang, Yi Zhang

RAGuard: Robustness of Retrieval-Augmented Generation against Misleading Retrievals

개요:
본 논문은 대규모 언어 모델(LLM)의 환각 현상을 완화하는 데 효과적인 Retrieval-augmented generation (RAG) 시스템의 견고성을 평가하기 위한 새로운 벤치마크, RAGuard를 소개합니다. RAG 시스템은 오해의 소지가 있거나 상충되는 정보에 노출될 때 일관성을 유지하는 데 어려움을 겪으며, 특히 정치와 같은 실제 환경에서 문제가 됩니다. RAGuard는 기존의 합성 노이즈 기반 벤치마크와 달리, Reddit 토론에서 수집된 실제적인 허위 정보를 기반으로 한 팩트 체킹 데이터셋을 활용합니다. 이 데이터셋은 검색된 증거를 지지, 오해의 소지, 관련 없음의 세 가지 유형으로 분류하여 RAG 시스템이 다양한 유형의 증거를 얼마나 잘 처리하는지 평가합니다.
시사점, 한계점:
시사점:
RAG 시스템의 실제 환경에서의 성능 평가를 위한 새로운 벤치마크 제시.
Reddit 기반의 현실적인 허위 정보 데이터셋을 활용하여 RAG 시스템의 견고성 평가.
테스트 결과, 모든 LLM 기반 RAG 시스템이 오해의 소지가 있는 정보를 포함하는 경우 제로샷 베이스라인보다 성능이 저하됨을 확인.
인간 평가자는 일관적으로 더 나은 성능을 보여, LLM이 노이즈 환경에 취약함을 강조.
RAG 시스템의 실제 적용 가능성을 높이기 위한 연구 방향 제시.
한계점:
벤치마크의 구체적인 데이터셋 구성 및 적용 범위에 대한 추가 정보 필요.
테스트에 사용된 LLM 및 RAG 시스템의 세부 설정에 대한 정보 부족.
향후 연구를 위한 구체적인 개선 방향 제시 필요.
👍