Este artículo propone un novedoso método de generación de indicaciones, la Decodificación Guiada Visualmente (VGD), para controlar eficazmente los modelos de generación de texto a imagen, como DALL-E y Difusión Estable. Para resolver los problemas de mala interpretabilidad e inconsistencia en la generación de indicaciones, que son comunes en las técnicas de indicaciones suaves y duras existentes, VGD genera indicaciones consistentes y semánticamente alineadas mediante un modelo de lenguaje a gran escala (LLM) y guías basadas en CLIP. Genera indicaciones comprensibles para el ser humano aprovechando la potente capacidad de generación de texto de LLM y mejora la interpretabilidad, la generalización y la flexibilidad al garantizar la alineación con los conceptos visuales especificados por el usuario mediante puntuaciones CLIP. La generación eficaz de indicaciones es posible sin entrenamiento adicional, y los resultados experimentales muestran que VGD genera indicaciones más comprensibles y apropiadas al contexto que las técnicas de desconversión de indicaciones existentes, lo que hace que las interacciones con los modelos de texto a imagen sean más intuitivas y controlables.