Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Created by
  • Haebom

作者

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Bo Li

概要

本論文は、最近のテキスト画像生成モデル(T2I)の性能向上にもかかわらず、性的に暗示的な画像、暴力的な画像、政治的に敏感な画像、不快な画像などのNSFWコンテンツの生成に関する懸念を提示し、これを解決するための新しいコンテンツ調整技術であるPromptGuardを提示します。 PromptGuardは、大規模言語モデル(LLM)のシステムプロンプトメカニズムに触発され、T2Iモデルのテキスト埋め込みスペース内に暗黙のシステムプロンプトとして機能する安全ソフトプロンプト(P *)を最適化します。これにより、推論効率を低下させたり、プロキシモデルを必要とせずに、安全でリアルな画像生成を可能にします。さらに、カテゴリ別のソフトプロンプトを最適化し、それらを統合して安全ガイドラインを提供する分割征服戦略により、信頼性と使いやすさが向上します。 5つのデータセットの広範な実験は、PromptGuardが高品質のポジティブ出力を維持しながら、NSFWコンテンツの生成を効果的に軽減することを示しています。従来の方法より3.8倍速い速度を達成し、最適な安全でない比率を5.84%まで下げ、8つの最先端防御技術を凌駕します。

Takeaways、Limitations

Takeaways:
T2IモデルのNSFWコンテンツ生成問題に対する効果的かつ効率的な解決策の提示
従来の方法よりもはるかに速い速度でNSFWコンテンツの生成を減らす
システムプロンプトメカニズムをT2Iモデルに適用する新しいアプローチの提示
安全性と品質を同時に考慮したバランスのとれた性能を実現
Limitations:
特定のデータセットのパフォーマンス評価の結果であるため、他のデータセットまたはモデルの一般化可能性検証が必要です
新しいタイプのNSFWコンテンツに対する適応力に関するさらなる研究が必要
安全ソフトプロンプト最適化プロセスの透明性と説明可能性の向上が必要
5.84%の安全でない割合は完璧な解決策ではなく、継続的な改善が必要です
👍