본 논문은 시각적 추론 능력 향상을 위한 새로운 강화 학습 기반 미세 조정 프레임워크인 Reason-RFT를 제안합니다. 기존의 Chain-of-Thought(CoT)를 이용한 지도 학습 방식의 과적합 및 도메인 특화 문제를 해결하기 위해, Reason-RFT는 지도 학습 기반 미세 조정(SFT)과 Group Relative Policy Optimization(GRPO) 기반 강화 학습을 두 단계로 진행합니다. SFT는 VLM의 추론 잠재력을 활성화하고, GRPO는 다양한 추론-응답 쌍을 생성하여 일반화 능력을 향상시킵니다. 시각적 계산, 구조 인식, 공간 변환 등을 포함하는 종합적인 데이터셋을 구축하여 Reason-RFT의 성능을 평가한 결과, 다양한 과제에서 최첨단 성능을 달성하고, 일반화 능력과 데이터 효율성에서 우수한 결과를 보였습니다.