본 논문은 대규모 언어 모델(LLM) 기반 검색 증강 생성(RAG) 시스템의 현실 세계 적용 가능성을 평가하기 위해, 오류가 포함된 검색 결과에 대한 시스템의 강건성을 평가하는 새로운 벤치마크인 RAGuard를 제시합니다. 기존 벤치마크가 이상적인 검색 환경을 가정하는 것과 달리, RAGuard는 Reddit 토론에서 수집한 실제 정보를 사용하여, 지원, 오류 유도, 무관 정보 등 다양한 유형의 검색 결과를 포함하는 현실적인 평가 환경을 제공합니다. 실험 결과, 모든 LLM 기반 RAG 시스템은 오류 유도 검색 결과에 노출되었을 때, 검색 없이 수행하는 제로샷 기준선보다 성능이 저하되는 것으로 나타났습니다. 이는 RAG 시스템이 잡음이 많은 환경에 취약함을 보여줍니다.