Reason-RFT는 시각적 추론 과제에서 일반화 능력을 크게 향상시키는 새로운 강화 학습 기반 미세 조정 프레임워크입니다. 기존의 CoT(Chain-of-Thought)를 이용한 지도 학습 방식의 한계(과적합 및 인지적 경직성)를 극복하기 위해, 두 단계의 학습 과정을 제시합니다. 첫 번째 단계는 CoT 데이터를 이용한 지도 학습(SFT)으로 VLM(Vision-Language Model)의 추론 잠재력을 활성화하고, 두 번째 단계는 GRPO(Group Relative Policy Optimization) 기반 강화 학습을 통해 다양한 추론-응답 쌍을 생성하여 일반화 능력을 향상시킵니다. 시각적 계산, 구조 인식, 공간 변환 등을 포함하는 종합적인 데이터셋을 구축하여 Reason-RFT의 성능을 평가하였으며, 최첨단 성능, 뛰어난 일반화 능력, 데이터 효율성을 보여주는 결과를 얻었습니다.