본 논문은 다양한 Chain-of-Thought (CoT) 디자인이 시각 언어 모델 (VLM)의 일반화 가능한 시각적 추론 능력 획득에 미치는 영향을 연구한다. 특히, "이미지로 생각하기"와 같은 긴 CoT 또는 시각적 CoT 데이터가 중간 추론을 지도하는 데 널리 사용되지만, 특정 CoT 디자인이 도움이 되는 이유와 실제로 일반화 가능한 추론을 지원하는 디자인이 무엇인지 불분명하다는 문제에 주목한다. 이를 체계적으로 평가하기 위해, 추론 규칙이 완전히 시각적이고, 난이도가 격자 크기에 따라 조정될 수 있으며, 모든 중간 단계가 자동으로 생성될 수 있는 제어된 미로 해결 벤치마크에 초점을 맞춘다. Qwen2.5-VL-7B를 사용하고, Language CoT, Grounding CoT (공간 좌표 궤적 포함), Visual CoT (이미지 조작 포함)의 세 가지 대표적인 CoT 형식을 비교한다.