Cet article présente PyVision, un framework interactif multi-tours permettant de surmonter les limitations des modèles de langage à grande échelle (LLM) en raisonnement visuel. PyVision permet une résolution de problèmes flexible et interprétable en permettant aux LLM de générer, d'exécuter et d'affiner de manière autonome des outils Python adaptés à une tâche donnée. Nous développons une taxonomie des outils générés par PyVision et analysons leur utilisation dans différents benchmarks. Les résultats expérimentaux démontrent que PyVision réalise des gains de performances constants, notamment une amélioration de 7,8 % des performances de V* sur GPT-4.1 et de 31,1 % des performances de VLMsAreBlind-mini sur Claude-4.0-Sonnet. Cela suggère que l'utilisation dynamique d'outils permet aux modèles d'aller au-delà de la simple utilisation d'outils pour les inventer, conduisant à un raisonnement visuel plus autonome.