본 논문은 강화학습(RL)을 이용하여 다중 모달 대규모 언어 모델(MLLM)의 추론 능력을 향상시키는 방법을 제시합니다. 기존의 RL 기반 훈련이 질문 및 반성과 같은 복잡한 추론 능력을 활성화하는 데 어려움을 겪는다는 점을 고려하여, 고품질의 다중 모달 추론 데이터 부족 문제를 해결하기 위해 고품질 다중 모달 Chain-of-Thought (CoT) 데이터셋을 생성합니다. 기존 MLLM과 DeepSeek-R1을 활용하여 모달 연결 및 데이터 필터링을 통해 200K 크기의 Vision-R1-cold 데이터셋을 생성하고, 이를 Vision-R1 모델의 초기화 데이터로 사용합니다. 과도한 추론으로 인한 최적화 문제를 완화하기 위해 Progressive Thinking Suppression Training (PTST) 전략과 Group Relative Policy Optimization (GRPO)를 제안하고, 10K 크기의 다중 모달 수학 데이터셋을 이용하여 모델의 정확하고 복잡한 추론 과정 학습 능력을 점진적으로 개선합니다. 실험 결과, 다양한 다중 모달 수학 추론 벤치마크에서 평균 6%의 성능 향상을 달성했으며, MathVista 벤치마크에서 73.5%의 정확도를 기록하여 OpenAI O1과의 성능 차이를 0.4%로 줄였습니다. 데이터셋과 코드는 공개될 예정입니다.