Bài báo này trình bày một phương pháp cải thiện khả năng suy luận trực quan chi tiết của các mô hình ngôn ngữ thị giác (VLM) ngay cả trong điều kiện tính toán hạn chế. Lấy cảm hứng từ Deepseek-r1, chúng tôi huấn luyện các mô hình nhỏ bằng cách sử dụng Tối ưu hóa Chính sách Tương đối Nhóm (GRPO) và tận dụng các công cụ bên ngoài như Zoom. Chúng tôi đạt được lợi ích lớn nhất bằng cách kết hợp huấn luyện GRPO, cấu trúc phần thưởng đơn giản, giao diện gọi công cụ được sắp xếp hợp lý, phân bổ mã thông báo bổ sung cho kết quả gọi công cụ và kết hợp dữ liệu huấn luyện thể hiện quá mức các ví dụ khó về mặt thị giác. Do đó, chúng tôi đạt được hiệu suất được cải thiện trong một số tác vụ trả lời câu hỏi trực quan (VQA) so với các mô hình cơ sở có kích thước tương tự, nhờ thông tin trực quan chi tiết được thu thập từ các công cụ bên ngoài.