본 논문은 계산 자원이 제한된 상황에서도 시각 언어 모델(VLMs)의 상세한 시각적 추론 능력을 향상시키는 방법을 제시한다. Deepseek-r1에서 영감을 얻어, Group Relative Policy Optimization (GRPO)을 사용하여 소규모 모델을 학습시키고, 확대(zoom)와 같은 외부 도구를 활용하도록 한다. GRPO 학습, 단순한 보상 구조, 간소화된 도구 호출 인터페이스, 도구 호출 결과에 대한 추가 토큰 할당, 그리고 시각적으로 어려운 예시를 과대 표현한 학습 데이터 혼합을 결합하여 가장 큰 효과를 얻었다. 결과적으로 유사한 크기의 기준 모델에 비해 일부 시각적 질의응답(VQA) 작업에서 향상된 성능을 달성하며, 이는 외부 도구에서 수집된 상세한 시각 정보 덕분이다.