본 논문은 대규모 언어 모델에서 복잡한 추론 능력의 자율적 발달을 가능하게 하는 강화 학습 기법인 DeepSeek R1을 시각적 추론(multimodal reasoning) 영역으로 확장한 연구 결과를 제시합니다. 기존 연구에서 강화 학습을 통해 단순 규칙 기반 인센티브를 사용하여 언어 모델의 자기 반성 및 응답 길이 증가와 같은 특징을 보이는 "aha moment"를 유도하는 데 성공했으나, 이를 시각적 추론에 적용하는 데 어려움을 겪었습니다. 본 연구는 비-SFT(Supervised Fine-Tuning) 2B 모델인 Qwen2-VL-2B를 사용하여 SAT 데이터셋에 직접 강화 학습을 적용함으로써, 시각적 추론에서도 이러한 특징들을 성공적으로 재현한 첫 사례를 제시합니다. CVBench에서 59.47%의 정확도를 달성하여 기본 모델보다 약 30%, SFT 설정보다 약 2% 향상된 성능을 보였습니다. 또한, 지시 모델(instruct model)을 사용하여 R1과 유사한 추론 능력을 얻으려는 시도와 그 실패 경험, 통찰력을 공유하며, 지시 모델에 강화 학습을 적용하면 단순한 추론 경로가 발생하고, 단순한 길이 보상은 추론 능력을 유도하는 데 효과적이지 않다는 주요 관찰 결과를 제시합니다.