Este artículo presenta PyVision, un marco interactivo multi-turno que supera las limitaciones de los modelos de lenguaje a gran escala (LLM) en el razonamiento visual. PyVision facilita la resolución de problemas de forma flexible e interpretable, permitiendo que los LLM generen, ejecuten y refinen de forma autónoma herramientas basadas en Python adaptadas a una tarea específica. Desarrollamos una taxonomía de las herramientas generadas por PyVision y analizamos su uso en diversas pruebas de rendimiento. Los resultados experimentales demuestran que PyVision logra mejoras de rendimiento consistentes, incluyendo una mejora del 7,8 % en el rendimiento de V* en GPT-4.1 y del 31,1 % en el rendimiento de VLMsAreBlind-mini en Claude-4.0-Sonnet. Esto sugiere que el uso dinámico de herramientas permite que los modelos vayan más allá de la simple creación de herramientas, lo que conduce a un razonamiento visual más autónomo.