본 논문은 강화 학습(RL)을 통해 다중 모달 대규모 언어 모델(MLLM)의 사고 연쇄 추론 능력을 향상시키는 새로운 방법을 제시합니다. 기존 연구에서 강화 학습을 통해 'aha moment' 패턴이 나타나는 것을 'emergent property'로 설명하지만, 본 연구는 이러한 패턴이 사전 강화 학습 단계에서도 존재하며, 추론 성능 향상과는 직접적인 상관관계가 없음을 보여줍니다. 따라서, 본 논문에서는 구조화된 사고 연쇄 추론 패턴을 이용한 감독 학습 미세 조정(SFT)을 초기 단계로, 그리고 GRPO 기반 강화 학습을 후속 단계로 하는 2단계 접근 방식을 제안합니다. 실험 결과, 이 방법은 SFT 전용 및 RL 전용 방법보다 다양한 다중 모달 추론 벤치마크에서 일관되게 우수한 성능을 보이며, 특히 7B 모델은 기존 모델 대비 상당한 성능 향상(예: MathVista 66.3% → 73.4%, We-Math 62.9% → 70.4%)을 달성합니다. 3B 모델 또한 여러 7B 모델과 경쟁력 있는 성능을 보입니다. 본 연구는 고급 다중 모달 추론 모델 구축을 위한 실용적인 지침을 제공하며, 코드는 공개적으로 제공됩니다.