Este artículo presenta un método para mejorar la capacidad de razonamiento visual detallado de los modelos de lenguaje visual (MLV), incluso en condiciones computacionales limitadas. Inspirados por Deepseek-r1, entrenamos modelos pequeños mediante Optimización de Políticas Relativa de Grupo (GRPO) y aprovechamos herramientas externas como Zoom. Logramos el máximo beneficio combinando el entrenamiento GRPO, una estructura de recompensas simple, una interfaz optimizada para llamadas a herramientas, asignación adicional de tokens para los resultados de las llamadas a herramientas y una combinación de datos de entrenamiento que sobrerrepresenta los ejemplos visualmente complejos. En consecuencia, logramos un mejor rendimiento en algunas tareas de respuesta visual a preguntas (VQA) en comparación con modelos base de tamaño similar, gracias a la información visual detallada recopilada por las herramientas externas.