Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PromptGuard : Modération de contenu non sécurisé guidée par invite logicielle pour les modèles texte-image

Created by
  • Haebom

Auteur

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Bo Li

Contour

Malgré les récentes améliorations des performances des modèles texte-image (T2I), cet article soulève des inquiétudes quant à la génération de contenu NSFW, notamment d'images à caractère sexuel, violent, politiquement sensible et offensant. Pour y remédier, nous présentons PromptGuard, une nouvelle technique de modération de contenu. Inspirée du mécanisme d'invite système des modèles de langage à grande échelle (LLM), PromptGuard optimise les invites logicielles sécurisées (P*), qui servent d'invites système implicites dans l'espace d'intégration textuelle des modèles T2I. Cela permet une génération d'images sûre et réaliste sans compromettre l'efficacité de l'inférence ni nécessiter de modèles proxy. De plus, nous optimisons les invites logicielles spécifiques à chaque catégorie et les intégrons pour fournir des conseils de sécurité, améliorant ainsi la fiabilité et la convivialité. Des expériences approfondies sur cinq jeux de données démontrent que PromptGuard atténue efficacement la génération de contenu NSFW tout en préservant une sortie positive de haute qualité. Elle atteint une vitesse 3,8 fois supérieure à celle des méthodes existantes et réduit le taux optimal d'insécurité à 5,84 %, surpassant ainsi huit défenses de pointe.

Takeaways, Limitations

Takeaways:
Fournir une solution efficace et efficiente au problème de création de contenu NSFW du modèle T2I.
Réduit la création de contenu NSFW à un rythme beaucoup plus rapide que les méthodes existantes.
Une nouvelle approche pour appliquer les mécanismes d’invite du système au modèle T2I est présentée.
Atteindre des performances équilibrées qui prennent en compte simultanément la sécurité et la qualité
Limitations:
ÉTant donné qu’il s’agit d’un résultat d’évaluation des performances pour un ensemble de données spécifique, il est nécessaire de vérifier la généralisabilité à d’autres ensembles de données ou modèles.
Des recherches supplémentaires sont nécessaires sur l’adaptabilité aux nouveaux types de contenu NSFW.
Le besoin d’une plus grande transparence et d’une plus grande explicabilité dans le processus d’optimisation rapide des logiciels de sécurité.
Le taux d’insécurité de 5,84 % n’est pas une solution parfaite et nécessite une amélioration continue.
👍