시각 문서에서 정확한 증거 소스를 식별하는 것을 목표로, 비전-언어 모델(VLM)의 신뢰할 수 있고 검증 가능한 예측을 보장하는 시각 증거 귀속을 위한 시각 문서 검색-증강 생성(VD-RAG)에 대해 다룹니다. 본 논문에서는 Chain-of-Evidence (CoE) 패러다임을 도입하여 Chain-of-Thought (CoT) 추론과 시각 증거 귀속을 통합합니다. 이를 위해, Look As You Think (LAT)라는 강화 학습 프레임워크를 제안하여, 모델이 일관된 귀속을 가진 검증 가능한 추론 경로를 생성하도록 훈련합니다. LAT는 CoE 궤적이 정답을 산출할 때만 보상을 제공하여 과정 수준의 자체 검증을 장려합니다. Qwen2.5-VL-7B-Instruct 모델을 Paper- 및 Wiki-VISA 벤치마크에서 실험한 결과, LAT가 평균 8.23%의 soft exact match (EM) 향상과 47.0%의 IoU@0.5 향상을 보였으며, 도메인 간의 일반화 성능도 우수했습니다.