本論文は、テキスト画像生成(T2I)モデルにおいて安全でないコンテンツ(NSFW)を効率的かつ正確に検出する新しいフレームワークであるWukongを提案する。従来のテキストフィルタベースの方法はユーザプロンプトのみを分析し、モデル特有の変化を見落とし、敵対的な攻撃に脆弱であり、画像フィルタベースの方法は計算コストが高く遅延時間が長いという欠点がある。 Wukongは、拡散モデルの中間出力(初期ノイズ除去ステップ)を利用し、U-Netの事前学習されたクロスアテンションパラメータを再利用するトランスベースのフレームワークです。これにより、拡散プロセス内で早期にNSFWコンテンツが検出され、全体の画像生成を待つ必要がなくなります。また、プロンプト、シード、画像別のNSFWラベルを含む新しいデータセットを提示し、このデータセットと2つの公開ベンチマークでWukongを評価して、従来の方法よりも優れた効率と精度を示すことを確認しました。