Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Cadre Wukong pour la détection des non-sécurités au travail dans les systèmes de conversion de texte en image

Created by
  • Haebom

Auteur

Mingrui Liu, Sixiao Zhang, Cheng Long

Contour

Cet article propose Wukong, un nouveau framework pour la détection efficace et précise des contenus NSFW (Not Safe for Users) dans les modèles texte-image (T2I). Les méthodes existantes basées sur des filtres de texte analysent uniquement les invites utilisateur, négligeant les variations spécifiques au modèle et les rendant vulnérables aux attaques adverses. Les méthodes basées sur des filtres d'images souffrent d'une surcharge de calcul et d'une latence importante. Wukong est un framework basé sur Transformer qui exploite les sorties intermédiaires (débruitage précoce) d'un modèle de diffusion et réutilise les paramètres d'attention croisée pré-entraînés d'U-Net. Cela permet une détection précoce des contenus NSFW au sein du processus de diffusion, éliminant ainsi le besoin d'attendre la fin du processus de génération d'images. De plus, nous présentons un nouvel ensemble de données contenant des invites, des graines et des étiquettes NSFW spécifiques aux images. Nous évaluons Wukong sur cet ensemble de données et deux benchmarks publics, démontrant une efficacité et une précision supérieures à celles des méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous proposons une nouvelle méthode pour détecter efficacement le contenu NSFW dans l'étape intermédiaire du processus de diffusion du modèle T2I.
Il a atteint une efficacité supérieure et une précision similaire ou meilleure que les méthodes existantes (filtre de texte, filtre d'image).
Il peut contribuer aux recherches futures en fournissant un nouvel ensemble de données NSFW.
Limitations:
Il manque des détails précis sur la taille et la diversité de l’ensemble de données proposé.
Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de Wukong se généralisent à travers différents modèles T2I et différents types de contenu NSFW.
On constate un manque d’appréciation de la résilience de Wukong face aux attaques hostiles.
👍