Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quand et où les poisons de données attaquent-ils l’inversion textuelle ?

Created by
  • Haebom

Auteur

Jeremy Styborski, Mingzhi Lyu, Jiayou Lu, Nupur Kapur, Adams Kong

Contour

Cet article analyse systématiquement les attaques par empoisonnement sur la technique d'inversion textuelle (IT) des modèles de diffusion (MD). Nous présentons d'abord les cartes de sensibilité sémantique, une nouvelle méthode permettant de visualiser l'impact des attaques par empoisonnement sur les intégrations textuelles. Ensuite, nous démontrons expérimentalement que les MD présentent un comportement d'apprentissage non uniforme selon les pas de temps, en nous concentrant particulièrement sur les échantillons à faible bruit. Les attaques par empoisonnement exploitent ce biais en injectant des signaux antagonistes principalement aux pas de temps courts. Enfin, nous observons que les signaux antagonistes perturbent l'apprentissage des régions conceptuelles pertinentes pendant l'apprentissage, compromettant ainsi le processus d'IT. Sur la base de ces observations, nous proposons l'entraînement en zone de sécurité (SZT), un nouveau mécanisme de défense composé de trois éléments principaux : 1. atténuation des signaux d'empoisonnement haute fréquence via la compression JPEG ; 2. restriction des pas de temps longs pour éviter les signaux antagonistes aux pas de temps courts ; et 3. masquage des pertes pour restreindre l'apprentissage aux régions pertinentes. Grâce à des expériences approfondies sur diverses attaques d'empoisonnement, nous montrons que SZT améliore considérablement la robustesse du TI contre toutes les attaques d'empoisonnement et améliore la qualité de génération par rapport aux défenses précédemment publiées.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode (Semantic Sensitivity Maps) pour analyser et visualiser systématiquement l'impact des attaques d'empoisonnement sur le TI des DM.
Nous élucidons le comportement d’apprentissage non uniforme dépendant du pas de temps des DM et révélons comment les attaques d’addiction exploitent cela.
Nous proposons le SZT, un mécanisme de défense efficace contre les attaques d'empoisonnement, et vérifions expérimentalement son efficacité.
Obtenez une qualité de production améliorée par rapport aux défenses existantes.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du SZT.
Une vérification de l’applicabilité et de l’efficacité de divers types de méthodes DM et TI est nécessaire.
Il est nécessaire d’évaluer la tolérance du SZT aux nouveaux types d’attaques d’addiction.
👍