본 논문은 최신 정보를 활용하여 대규모 언어 모델(LLM)의 성능을 향상시키는 강력한 방법으로 떠오른 검색 증강 생성(RAG) 시스템의 한계점을 다룹니다. 특히 뉴스와 같이 빠르게 변화하는 영역에서는 검색 단계에서 상반되는 정보가 포함된 문서가 표출될 수 있으며, 이는 LLM의 성능에 심각한 영향을 미쳐 일관성 없는 또는 잘못된 출력을 초래할 수 있습니다. 본 연구는 이러한 문제를 해결하기 위해 두 가지 접근 방식을 제시합니다. 첫째, RAG 시스템의 검색 단계에서 발생할 수 있는 다양한 유형의 모순을 시뮬레이션하기 위한 새로운 데이터 생성 프레임워크를 제시하고, 둘째, 상반되는 정보를 감지하는 능력을 평가하여 여러 LLM의 맥락 검증 성능을 평가합니다. 실험 결과, 최첨단 LLM조차도 맥락 검증이 어려운 작업임을 보여주며, 성능은 모순 유형에 따라 크게 달라집니다. 일반적으로 더 큰 모델이 모순 감지에 더 나은 성능을 보이지만, 프롬프팅 전략의 효과는 작업과 모델 아키텍처에 따라 다릅니다. Chain-of-thought 프롬프팅은 일부 모델에서 눈에 띄는 성능 향상을 보이지만 다른 모델에서는 성능을 저하시킬 수 있으며, 이는 RAG 시스템에서 맥락 검증을 위한 보다 강력한 접근 방식의 필요성을 강조합니다.