본 논문은 언어 모델(LM)의 매개변수적 지식의 한계를 해결하는 데 도움이 되는 검색 증강 생성(RAG)에 대해 다룹니다. 실제 환경에서는 검색된 정보의 복잡성이 다양하지만, LM의 맥락 활용에 대한 대부분의 연구는 합성 텍스트에 국한되었습니다. 본 논문에서는 실제 세계 질의와 맥락을 수동으로 입장(stance)에 따라 주석을 단 DRUID (Dataset of Retrieved Unreliable, Insufficient and Difficult-to-understand contexts) 데이터셋을 소개합니다. 이 데이터셋은 자동화된 주장 검증이라는 전형적인 작업을 기반으로 하며, 실제 세계 증거의 자동 검색이 매우 중요합니다. 본 논문에서는 DRUID를 합성 데이터셋(CounterFact, ConflictQA)과 비교하여 인공 데이터셋이 현실적으로 검색된 맥락의 복잡성과 다양성을 나타내지 못하는 경우가 많다는 것을 발견했습니다. 합성 데이터셋은 실제 검색된 데이터에서 드물게 나타나는 맥락 특징을 과장하여, 새로운 ACU 점수로 측정했을 때 맥락 활용 결과가 과장되게 나타납니다. 또한 이전 연구는 주로 단일 맥락 특징에 초점을 맞춰 맥락 활용을 설명했지만, DRUID에서 단일 맥락 특성과 ACU 간의 상관관계는 맥락 출처와 관련된 다른 특성에 비해 놀라울 정도로 작습니다. 전반적으로, 본 연구는 실제 세계 RAG 설정에서 성능을 나타내고 향상시키기 위해 실제 세계에 맞춰진 맥락 활용 연구의 필요성을 강조합니다.