यह पत्र वुकोंग का प्रस्ताव करता है, जो टेक्स्ट-टू-इमेज (T2I) मॉडल में उपयोगकर्ताओं के लिए सुरक्षित नहीं (NSFW) सामग्री का कुशल और सटीक पता लगाने के लिए एक नया ढांचा है। मौजूदा टेक्स्ट-फ़िल्टर-आधारित विधियाँ केवल उपयोगकर्ता संकेतों का विश्लेषण करती हैं, मॉडल-विशिष्ट विविधताओं को अनदेखा करती हैं और उन्हें प्रतिकूल हमलों के प्रति संवेदनशील बनाती हैं। छवि-फ़िल्टर-आधारित विधियाँ कम्प्यूटेशनल ओवरहेड और लंबी विलंबता से ग्रस्त हैं। वुकोंग एक ट्रांसफॉर्मर-आधारित ढांचा है जो एक प्रसार मॉडल के मध्यवर्ती आउटपुट (प्रारंभिक डेनोइजिंग) का लाभ उठाता है और यू-नेट से पूर्व-प्रशिक्षित क्रॉस-अटेंशन मापदंडों का पुन: उपयोग करता है। यह प्रसार प्रक्रिया के भीतर NSFW सामग्री का शीघ्र पता लगाने की अनुमति देता है, जिससे संपूर्ण छवि निर्माण प्रक्रिया के लिए प्रतीक्षा करने की आवश्यकता समाप्त हो जाती है। इसके अलावा, हम एक नया डेटासेट प्रस्तुत करते हैं जिसमें संकेत, बीज और छवि-विशिष्ट NSFW लेबल शामिल हैं