Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Wukong Framework for Not Safe For Work Detection in Text-to-Image systems

Created by
  • Haebom

作者

Mingrui Liu, Sixiao Zhang, Cheng Long

概要

本論文は、テキスト画像生成(T2I)モデルにおいて安全でないコンテンツ(NSFW)を効率的かつ正確に検出する新しいフレームワークであるWukongを提案する。従来のテキストフィルタベースの方法はユーザプロンプトのみを分析し、モデル特有の変化を見落とし、敵対的な攻撃に脆弱であり、画像フィルタベースの方法は計算コストが高く遅延時間が長いという欠点がある。 Wukongは、拡散モデルの中間出力(初期ノイズ除去ステップ)を利用し、U-Netの事前学習されたクロスアテンションパラメータを再利用するトランスベースのフレームワークです。これにより、拡散プロセス内で早期にNSFWコンテンツが検出され、全体の画像生成を待つ必要がなくなります。また、プロンプト、シード、画像別のNSFWラベルを含む新しいデータセットを提示し、このデータセットと2つの公開ベンチマークでWukongを評価して、従来の方法よりも優れた効率と精度を示すことを確認しました。

Takeaways、Limitations

Takeaways:
T2Iモデルの拡散過程中間段階でNSFWコンテンツを効率的に検出する新しい方法を提示した。
従来の方法(テキストフィルタ、画像フィルタ)よりも高い効率と同等またはより良い精度を達成した。
新しいNSFWデータセットを提供することで、今後の研究に貢献できます。
Limitations:
提案されたデータセットの規模と多様性の具体的な説明は不足している。
WukongのパフォーマンスがさまざまなT2Iモデルとさまざまな種類のNSFWコンテンツに対してどれだけ一般化できるかについてのさらなる研究が必要です。
敵対的攻撃に対するWukongの強靭性の評価が不足している。
👍