Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
AlignGuard : alignement de sécurité évolutif pour la génération de texte en image
Created by
Haebom
Auteur
Runtao Liu, I Chieh Chen, Jindong Gu, Jipeng Zhang, Renjie Pi, Qifeng Chen, Philip Torr, Ashkan Khakzar, Fabio Pizzati
Contour
Dans cet article, nous présentons AlignGuard, une nouvelle méthode visant à améliorer la sécurité des modèles texte-image (T2I). Pour pallier les limites des mesures de sécurité existantes qui ne suppriment que quelques concepts, AlignGuard applique l'optimisation directe des préférences (DPO) sur le jeu de données synthétique CoProV2. CoProV2 est composé de paires image-texte dangereuses et sûres, et forme des experts en sécurité sous forme de matrices d'adaptation à basse dimension (LoRA). Les experts en sécurité formés orientent le processus de génération loin des concepts spécifiques liés à la sécurité, et une nouvelle stratégie de fusion fusionne efficacement plusieurs experts en une seule LoRA. Ainsi, AlignGuard supprime sept fois plus de concepts dangereux que les méthodes existantes et atteint des performances de pointe sur plusieurs benchmarks. Le code et les données seront disponibles à l' adresse https://safetydpo.github.io/ .