본 논문은 시각 중심의 추론 데이터셋 구축에 대한 연구로, 100만 개 이상의 고품질 합성 시각 중심 질문으로 구성된 새로운 추론 데이터 생성 프레임워크를 제시한다. 이 데이터셋은 오프라인 및 온라인 강화 학습을 지원하는 선호 데이터와 지침 프롬프트도 포함한다. VLMs(Visual Language Models)과 추론 LLMs(Language Models)을 활용한 2단계 과정을 통해 추론 궤적을 합성하여, 최첨단 추론 모델에서 발견되는 풍부하고 다양한 인지 행동을 포착한다. Qwen2.5-VL-7B를 해당 데이터로 미세 조정하면 모든 공개 데이터 기반 벤치마크에서 우수한 성능을 보이며, V* Bench, CV-Bench 및 MMStar-V에서 MiMo-VL-7B-RL과 같은 강력한 비공개 데이터 모델보다 뛰어난 성능을 보인다. 또한 텍스트 기반 추론(MMLU-Pro) 및 오디오 추론(MMAU)에도 긍정적인 영향을 미치며, 단일 증거 구체화된 QA 벤치마크(NiEH)에서도 상당한 개선을 보인다. 본 논문은 또한 VLM 사후 훈련 파이프라인 전체를 분석하여, 고품질 데이터에 대한 SFT(Supervised Fine-tuning)가 효과적인 온라인 RL에 필수적이며, 단계별 오프라인 RL이 온라인 RL의 성능을 일치시키면서 컴퓨팅 요구 사항을 줄이며, 고품질 데이터에 대한 신중한 SFT가 도메인 외부, 교차 모달리티 전송을 상당히 향상시킬 수 있음을 강조한다.