본 논문은 제한된 컴퓨팅 자원 하에서도 시각 언어 모델(VLMs)의 상세한 시각적 추론 능력을 향상시키는 방법을 제시합니다. Deepseek-r1과 같은 기존 방법에서 영감을 얻어, 그룹 상대 정책 최적화(GRPO)를 이용하여 확대(zoom)와 같은 외부 도구를 활용하는 소규모 모델을 학습시킵니다. GRPO 학습, 단순한 보상 구조, 단순화된 도구 호출 인터페이스, 도구 호출 결과에 대한 추가 토큰 할당, 그리고 시각적으로 어려운 예제를 과대표하는 학습 데이터 믹스의 결합을 통해 가장 큰 성능 향상을 얻었습니다. 결과적으로, 유사한 크기의 기준 모델과 비교하여 일부 시각적 질의응답(VQA) 과제에서 외부 도구로부터 수집된 상세한 시각 정보 덕분에 더 나은 성능을 달성합니다.