VLM-R³는 장문의 시각적 추론 체인 생성에서 어려움을 겪는 기존의 MLLM의 한계를 극복하기 위해 제시된 프레임워크입니다. MLLM에 추가적인 시각적 증거가 필요한 시점을 결정하고, 이미지 내에서 추론의 근거를 찾을 위치를 결정하며, 관련 부분 이미지 내용을 추론 체인에 매끄럽게 통합하는 능력을 부여합니다. 핵심은 영역 조건 강화 정책 최적화(R-GRPO)로, 정보가 풍부한 영역 선택, 적절한 변환(예: 자르기, 확대) 및 결과 시각적 맥락을 후속 추론 단계에 통합하는 모델에 대한 보상을 제공하는 훈련 패러다임입니다. 영역 선택과 텍스트적 정당화에 대한 단계별 감독을 제공하는 Visuo-Lingual Interleaved Rationale (VLIR) 코퍼스를 활용하여 정책을 부트스트랩합니다. MathVista, ScienceQA 등의 벤치마크에서 Zero-shot 및 Few-shot 설정에서 최첨단 성능을 달성하였으며, 미묘한 공간 추론이나 세분화된 시각적 단서 추출을 요구하는 질문에서 가장 큰 성능 향상을 보였습니다.