Bài báo này đề xuất Wukong, một khuôn khổ mới để phát hiện hiệu quả và chính xác nội dung Không an toàn cho người dùng (NSFW) trong các mô hình chuyển văn bản thành hình ảnh (T2I). Các phương pháp dựa trên bộ lọc văn bản hiện có chỉ phân tích lời nhắc của người dùng, bỏ qua các biến thể cụ thể của mô hình và khiến chúng dễ bị tấn công đối nghịch. Các phương pháp dựa trên bộ lọc hình ảnh gặp phải chi phí tính toán cao và độ trễ dài. Wukong là một khuôn khổ dựa trên Transformer tận dụng các đầu ra trung gian (khử nhiễu sớm) của mô hình khuếch tán và tái sử dụng các tham số chú ý chéo được đào tạo trước từ U-Net. Điều này cho phép phát hiện sớm nội dung NSFW trong quá trình khuếch tán, loại bỏ nhu cầu chờ đợi trong toàn bộ quá trình tạo hình ảnh. Hơn nữa, chúng tôi trình bày một tập dữ liệu mới chứa lời nhắc, hạt giống và nhãn NSFW cụ thể của hình ảnh. Chúng tôi đánh giá Wukong trên tập dữ liệu này và hai điểm chuẩn công khai, chứng minh hiệu quả và độ chính xác vượt trội so với các phương pháp hiện có.