En este artículo, proponemos VIPER, un novedoso marco para la planificación visualmente guiada. VIPER integra la percepción basada en un Modelo de Visión-Lenguaje (VLM) y la inferencia basada en un Modelo de Lenguaje Grande (LLM). Utiliza una secuencia modular donde el VLM genera descripciones textuales de las observaciones de imágenes, y la política del LLM predice acciones según el objetivo de la tarea. Optimizamos el módulo de inferencia mediante replicación de acciones y aprendizaje por refuerzo para mejorar la capacidad de toma de decisiones del agente. Los resultados experimentales del benchmark ALFWorld demuestran que VIPER supera significativamente la planificación visualmente guiada de vanguardia y reduce la diferencia de rendimiento con los oráculos basados exclusivamente en texto. Al utilizar el texto como representación intermedia, mejoramos la explicabilidad y facilitamos un análisis detallado de los componentes de percepción e inferencia.