Cet article présente une méthode permettant d'améliorer la capacité de raisonnement visuel détaillé des modèles de langage visuel (MLV), même dans des conditions de calcul limitées. Inspirés par Deepseek-r1, nous entraînons de petits modèles à l'aide de l'optimisation des politiques relatives de groupe (GRPO) et exploitons des outils externes tels que Zoom. Nous obtenons les meilleurs résultats en combinant l'entraînement GRPO, une structure de récompense simple, une interface d'appel d'outils simplifiée, l'allocation de jetons supplémentaires pour les résultats des appels d'outils et un mélange de données d'entraînement surreprésentant les exemples visuellement complexes. Par conséquent, nous obtenons de meilleures performances sur certaines tâches de questions-réponses visuelles (QV) par rapport à des modèles de référence de taille similaire, grâce aux informations visuelles détaillées collectées à partir d'outils externes.