VLM-R³는 장문의 시각적 추론 과정 생성에 어려움을 겪는 기존의 대규모 언어 모델(MLLM)의 한계를 극복하기 위해 제안된 프레임워크입니다. MLLM에 (i) 추가적인 시각적 증거가 필요한 시점 판단, (ii) 이미지 내 grounding 위치 결정, (iii) 관련 부분 이미지 내용을 추론 과정에 원활하게 통합하는 능력을 부여합니다. 핵심은 영역 조건 강화 정책 최적화(R-GRPO)로, 정보가 풍부한 영역 선택, 적절한 변환(예: 자르기, 확대) 공식화, 결과 시각적 맥락을 후속 추론 단계에 통합하는 모델을 보상하는 훈련 패러다임입니다. 이 정책을 초기화하기 위해, 영역 선택 및 텍스트 정당화에 대한 단계별 감독을 제공하는 Visuo-Lingual Interleaved Rationale (VLIR) 코퍼스를 사용합니다. MathVista, ScienceQA 등의 벤치마크에서 zero-shot 및 few-shot 설정에서 최첨단 성능을 달성하며, 특히 미묘한 공간 추론이나 세분화된 시각적 단서 추출을 필요로 하는 질문에서 성능 향상이 두드러집니다.