본 논문 DocVQA(Document Visual Question Answering)에서 효율성과 정확성 사이의 trade-off 문제를 해결하기 위해, 대형 Teacher 모델의 공간 추론 능력을 배포 가능한 Student VLM으로 이전하는 DocVAL(validated chain-of-thought distillation framework)을 제안합니다. DocVAL은 검증된 훈련 신호, 정답 정확성 및 기하학적 일관성을 보장하는 다중 모듈 검증기(VAL), 그리고 VAL 피드백을 활용한 반복적 개선을 통해 Student 모델(Gemma-3 12B)의 성능을 향상시킵니다. 결과적으로, DocVAL은 DocVQA에서 91.4% ANLS 및 82.4% mAP를 달성했으며, 텍스트 감지나 OCR 없이도 뛰어난 성능을 보입니다. 또한, 공간 추론 연구 발전을 위해 95,000개의 고품질, 검증된 CoT 흔적을 공개합니다.