본 논문은 검증 가능한 결과 보상을 사용한 강화 학습(RLVR)을 통해 대규모 언어 모델(LLM)의 사고 과정(CoT) 추론을 효과적으로 확장한 연구에 대해 다룬다. 하지만 시각적 환경에서 목표 지향적 행동 추론을 위한 시각-언어 모델(VLM) 에이전트 훈련에 대한 효과는 아직 명확하지 않다. 본 연구는 24 점 게임과 ALFWorld의 구현된 작업과 같은 복잡한 카드 게임에 대한 광범위한 실험을 통해 이 문제를 조사한다. 결과 보상에만 기반한 보상을 사용할 경우, RL은 VLM에서 CoT 추론을 유도하지 못하고, 대신 '사고 붕괴' 현상을 야기한다는 것을 발견했다. 사고 붕괴는 에이전트의 사고 다양성의 급격한 감소, 상태와 무관하고 불완전한 추론, 그리고 그에 따른 잘못된 행동으로 이어져 음의 보상을 초래한다. 사고 붕괴를 해결하기 위해, 본 논문은 프로세스 지도의 필요성을 강조하고 각 RL 단계에서 에이전트의 추론을 평가하고 개선하는 자동 교정기를 제안한다. 이 간단하고 확장 가능한 GTR(Guided Thought Reinforcement) 프레임워크는 밀집된 단계별 사람의 라벨링 없이 추론과 행동을 동시에 훈련한다. 실험 결과, GTR은 다양한 시각적 환경에서 LLaVA-7b 모델의 성능과 일반화를 크게 향상시켜 기존 최고 성능 모델보다 3~5배 높은 작업 성공률을 달성하며, 특히 더 작은 모델 크기를 가지고 있다.