Sign In

Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals

Created by
  • Haebom
Category
Empty

저자

Linda Zeng, Rithwik Gupta, Divij Motwani, Yi Zhang, Diji Yang

RAGuard: Robustness of Retrieval-Augmented Generation against Misleading Retrievals

개요

본 논문은 대규모 언어 모델(LLM) 기반의 Retrieval-augmented generation (RAG) 시스템의 견고성을 평가하기 위한 새로운 벤치마크, RAGuard를 소개합니다. RAG 시스템은 잘못된 정보나 상반된 정보에 노출될 때 일관된 추론을 유지하는 데 어려움을 겪는다는 점에 착안하여, 실제 환경에서 발생할 수 있는 오해의 소지가 있는 검색 결과에 대한 RAG 시스템의 성능을 평가합니다. RAGuard는 기존 벤치마크와 달리 Reddit 토론 데이터를 기반으로 자연적으로 발생하는 잘못된 정보를 활용하여, RAG 시스템이 다양한 유형의 증거(supporting, misleading, unrelated)를 얼마나 잘 처리하는지 평가합니다. 실험 결과, 테스트된 모든 LLM 기반 RAG 시스템이 오해의 소지가 있는 검색 결과에 노출되었을 때 zero-shot baseline보다 낮은 성능을 보였으며, 이는 LLM이 노이즈 환경에 취약함을 시사합니다.

시사점, 한계점

시사점:
RAG 시스템이 오해의 소지가 있는 정보에 취약하다는 것을 보여줌.
실제 환경에서 RAG 시스템의 성능을 정확하게 평가하기 위한 새로운 벤치마크(RAGuard) 제시.
RAG 시스템의 견고성 향상을 위한 연구 방향 제시.
한계점:
Reddit 데이터를 사용했으므로 특정 도메인(정치 등)에 편향될 수 있음.
평가에 사용된 LLM의 종류가 제한적일 수 있음.
misleading evidence의 정의와 분류가 주관적일 수 있음.
👍