Cet article propose Wukong, un nouveau framework pour la détection efficace et précise des contenus NSFW (Not Safe for Users) dans les modèles texte-image (T2I). Les méthodes existantes basées sur des filtres de texte analysent uniquement les invites utilisateur, négligeant les variations spécifiques au modèle et les rendant vulnérables aux attaques adverses. Les méthodes basées sur des filtres d'images souffrent d'une surcharge de calcul et d'une latence importante. Wukong est un framework basé sur Transformer qui exploite les sorties intermédiaires (débruitage précoce) d'un modèle de diffusion et réutilise les paramètres d'attention croisée pré-entraînés d'U-Net. Cela permet une détection précoce des contenus NSFW au sein du processus de diffusion, éliminant ainsi le besoin d'attendre la fin du processus de génération d'images. De plus, nous présentons un nouvel ensemble de données contenant des invites, des graines et des étiquettes NSFW spécifiques aux images. Nous évaluons Wukong sur cet ensemble de données et deux benchmarks publics, démontrant une efficacité et une précision supérieures à celles des méthodes existantes.