본 논문은 시각-언어 모델(VLMs)의 추론 능력 향상을 위한 새로운 프레임워크인 VTool-R1을 제시합니다. 기존 강화 학습 미세조정(RFT) 기법은 주로 정적 이미지를 조건으로 하는 텍스트 기반 추론에 집중되어 있으나, VTool-R1은 파이썬 기반 시각 편집 도구를 통합하여 VLM이 텍스트와 중간 시각적 추론 단계를 번갈아 생성하도록 학습시킵니다. 이를 통해 VLM은 과제 정확도에 연결된 결과 기반 보상을 통해 전략적인 시각적 도구 사용을 학습하며, 차트와 표를 이용한 구조화된 시각적 질의응답 과제에서 향상된 추론 성능을 보입니다. 즉, VTool-R1은 이미지를 활용한 추론 능력을 향상시켜 다중 모달 사고 과정을 생성하는 것을 목표로 합니다.