Los modelos de difusión han logrado avances significativos en la generación de imágenes y audio mediante la guía sin clasificadores, pero la selección de la escala de guía ha sido poco estudiada. Las escalas fijas a menudo no se generalizan a indicaciones de diversa complejidad y suelen provocar sobresaturación o alineación deficiente. Este artículo aborda esta deficiencia introduciendo un marco que reconoce las indicaciones para predecir la calidad dependiente de la escala y seleccionar la guía óptima durante la inferencia. Específicamente, construimos un conjunto de datos sintéticos a gran escala generando muestras a múltiples escalas y calificándolas con métricas de evaluación fiables. Un predictor ligero, condicionado por las incrustaciones semánticas y la complejidad lingüística, estima una curva de calidad multimétrica, y se utiliza una función de utilidad para determinar la escala óptima mediante regularización. Los resultados experimentales en MSCOCO~2014 y AudioCaps demuestran mejoras consistentes con respecto a la CFG estándar, mejorando la fidelidad, la alineación y la conveniencia perceptual. Este estudio demuestra que la selección de escala que reconoce las indicaciones proporciona mejoras efectivas, sin entrenamiento, a las estructuras principales de difusión preentrenadas.