Este artículo propone Wukong, un nuevo marco para la detección eficiente y precisa de contenido no seguro para los usuarios (NSFW) en modelos de conversión de texto a imagen (T2I). Los métodos actuales basados en filtros de texto analizan únicamente las indicaciones del usuario, ignorando las variaciones específicas del modelo y haciéndolos vulnerables a ataques adversarios. Los métodos basados en filtros de imagen presentan sobrecarga computacional y una larga latencia. Wukong es un marco basado en Transformer que aprovecha las salidas intermedias (eliminación temprana de ruido) de un modelo de difusión y reutiliza parámetros de atención cruzada preentrenados de U-Net. Esto permite la detección temprana de contenido NSFW dentro del proceso de difusión, eliminando la necesidad de esperar a que se complete el proceso de generación de imágenes. Además, presentamos un nuevo conjunto de datos que contiene indicaciones, semillas y etiquetas NSFW específicas de la imagen. Evaluamos Wukong con este conjunto de datos y dos puntos de referencia públicos, demostrando una eficiencia y precisión superiores en comparación con los métodos existentes.