본 논문은 검색 증강 생성(RAG)이 널리 사용됨에도 불구하고, 여러 문서에 정보가 분산되거나 복잡한 추론이 필요한 질문에 어려움을 겪는다는 점을 지적한다. 특히 QUEST 벤치마크에서 장기간의 컨텍스트를 가진 언어 모델 기반 접근 방식도 한계를 보였다. 이 연구는 QUEST-LOFT에서 낮은 성능을 보이는 요인을 분석하고, 인간 평가를 통해 업데이트된 결과를 제시하며, RAG가 구조화된 출력 형식 (추론, 증거 포함)과 선택적으로 답변 재검증을 결합하여 장기간의 컨텍스트 접근 방식을 능가할 수 있음을 입증한다.