Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

AlignGuard : alignement de sécurité évolutif pour la génération de texte en image

Created by
  • Haebom

Auteur

Runtao Liu, I Chieh Chen, Jindong Gu, Jipeng Zhang, Renjie Pi, Qifeng Chen, Philip Torr, Ashkan Khakzar, Fabio Pizzati

Contour

Dans cet article, nous présentons AlignGuard, une nouvelle méthode visant à améliorer la sécurité des modèles texte-image (T2I). Pour pallier les limites des mesures de sécurité existantes qui ne suppriment que quelques concepts, AlignGuard applique l'optimisation directe des préférences (DPO) sur le jeu de données synthétique CoProV2. CoProV2 est composé de paires image-texte dangereuses et sûres, et forme des experts en sécurité sous forme de matrices d'adaptation à basse dimension (LoRA). Les experts en sécurité formés orientent le processus de génération loin des concepts spécifiques liés à la sécurité, et une nouvelle stratégie de fusion fusionne efficacement plusieurs experts en une seule LoRA. Ainsi, AlignGuard supprime sept fois plus de concepts dangereux que les méthodes existantes et atteint des performances de pointe sur plusieurs benchmarks. Le code et les données seront disponibles à l' adresse https://safetydpo.github.io/ .

Takeaways, Limitations

Takeaways:
Une nouvelle méthode (AlignGuard) qui améliore considérablement la sécurité du modèle T2I est présentée.
Application efficace du DPO pour améliorer la sécurité du modèle T2I
Supprime des concepts significativement plus nuisibles que les méthodes existantes (amélioration 7x)
Atteindre des performances optimales sur une variété de critères de référence
Assurer la reproductibilité et l'évolutivité de la recherche grâce à la divulgation du code et des données
Limitations:
Manque de description détaillée de la manière dont l'ensemble de données CoProV2 a été créé et de sa qualité
Il est possible que les performances n’aient été évaluées que pour certains types de contenus nuisibles.
Manque d'évaluation de la sécurité dans les environnements d'utilisation réels
Des recherches supplémentaires sont nécessaires sur l’adaptabilité aux nouvelles menaces pour la sécurité
👍