본 논문은 적절한 증거에 접근할 수 있다고 해서 대규모 언어 모델(LLM)이 이를 올바르게 추론하는 것을 보장하지 않는다는 점을 지적한다. 특히 임상 환경에서 구조화된 프로토콜과 일치해야 하는 출력을 고려할 때, 검색과 추론 사이의 간극은 우려스럽다. Written Exposure Therapy (WET) 지침을 테스트베드로 사용하여 이 간극을 연구하고, 큐레이션된 임상의 검토 질문에 대한 모델 응답을 평가한 결과, 권위 있는 구절이 제공된 경우에도 오류가 지속적으로 발생함을 발견했다. 이러한 문제를 해결하기 위해 정확성, 일관성, 추론 충실도를 측정하는 평가 프레임워크를 제안한다. 연구 결과는 RAG(Retrieval-Augmented Generation)의 잠재력과 위험성을 모두 강조하며, 안전한 배포를 위해서는 검색만큼 추론을 엄격하게 평가해야 함을 시사한다.