본 논문은 시각적 질문 응답(VQA) 과제에서 안정적인 강화 학습(RL)을 통해 자유 형식 추론을 생성하는 DeepSeek-R1과 같은 접근 방식의 한계를 해결하기 위해 SATORI를 제안합니다. 기존의 R1-like 접근 방식은 시각 정보의 이해에 크게 의존하는 VQA 과제의 특성을 고려하지 못하여 추론 과정에서 시각적 초점이 흐려지고 정확도가 저하되며, 검증 불가능한 중간 단계로 인해 정책 경사 분산과 계산 비용이 증가하는 문제점을 가지고 있습니다. SATORI는 VQA를 전역 이미지 캡션 생성, 영역 지역화, 답변 예측의 세 가지 검증 가능한 단계로 분해하여 각 단계에 명시적인 보상 신호를 제공함으로써 이러한 문제를 해결합니다. 또한, 훈련을 용이하게 하기 위해 답변과 정렬된 캡션 및 경계 상자로 주석이 달린 12,000개의 데이터셋인 VQA-Verify를 소개합니다. 실험 결과, SATORI는 7개의 VQA 벤치마크에서 최대 15.7%의 정확도 향상을 달성했습니다.