Dans cet article, nous proposons VIPER, un nouveau cadre pour la planification guidée visuellement. VIPER intègre la perception basée sur un modèle vision-langage (VLM) et l'inférence basée sur un modèle de langage large (LLM). Il utilise un pipeline modulaire où le VLM génère des descriptions textuelles d'observations d'images, et la politique LLM prédit les actions en fonction de l'objectif de la tâche. Nous affinons le module d'inférence en utilisant la réplication d'actions et l'apprentissage par renforcement pour améliorer la capacité de prise de décision de l'agent. Les résultats expérimentaux obtenus sur le benchmark ALFWorld démontrent que VIPER surpasse significativement la planification guidée visuellement de pointe existante et réduit l'écart de performance avec les oracles purement textuels. En exploitant le texte comme représentation intermédiaire, nous améliorons l'explicabilité et permettons une analyse détaillée des composantes perception et inférence.