본 논문은 단순 규칙 기반 인센티브를 사용한 강화 학습을 통해 대규모 언어 모델에서 복잡한 추론 능력을 자율적으로 개발하는 DeepSeek R1의 성공을 다중 모달 추론으로 확장한 연구 결과를 제시합니다. 비지도 학습된 20억 파라미터 Qwen2-VL-2B 모델에 강화 학습을 적용하여 SAT 데이터셋을 학습시킨 결과, CVBench에서 59.47%의 정확도를 달성하여 기저 모델보다 약 30%, 지도 학습 설정보다 약 2% 향상된 성능을 보였습니다. 또한, 지시 모델을 사용하여 R1과 같은 추론 능력을 달성하려는 시도와 그 실패 사례 및 통찰력을 공유하며, 지시 모델에 강화 학습을 적용하면 단순한 추론 경로가 생성되고, 단순 길이 보상은 추론 능력을 유도하는 데 비효율적임을 밝혔습니다.