[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quand et où les poisons de données attaquent-ils l’inversion textuelle ?

Created by
  • Haebom

Auteur

Jeremy Styborski, Mingzhi Lyu, Jiayou Lu, Nupur Kapur, Adams Kong

Contour

Dans cet article, nous analysons systématiquement les attaques par empoisonnement sur les modèles de diffusion (MD) par inversion de texte (IT). Nous présentons d'abord les cartes de sensibilité sémantique, une nouvelle méthode permettant de visualiser les effets de l'empoisonnement sur les intégrations de texte. Nous vérifions expérimentalement que les MD présentent des comportements d'apprentissage non uniformes à travers les pas de temps, en nous concentrant particulièrement sur les échantillons à faible bruit. Les attaques par empoisonnement héritent de ce biais en injectant des signaux antagonistes principalement à des pas de temps courts. Nous observons également que les signaux antagonistes corrompent le processus d'IT en détournant l'apprentissage des régions conceptuelles pertinentes des données d'entraînement. Sur la base de ces observations, nous proposons l'entraînement en zone de sécurité (SZT), un nouveau mécanisme de défense composé de trois éléments principaux : (1) la compression JPEG pour affaiblir les signaux d'empoisonnement à haute fréquence ; (2) la limitation des pas de temps élevés pendant l'entraînement de l'IT pour éviter les signaux antagonistes à des pas de temps courts ; et (3) le masquage des pertes pour limiter l'apprentissage aux régions pertinentes. Grâce à des expériences approfondies sur plusieurs méthodes d'empoisonnement, nous montrons que SZT améliore considérablement la robustesse du TI contre toutes les attaques d'empoisonnement et améliore la qualité de génération par rapport aux défenses précédemment publiées.

Takeaways, Limitations

Takeaways:
Nous analysons systématiquement la vulnérabilité des attaques par empoisonnement sur les modèles de diffusion (DM) en utilisant l'inversion de texte (TI) et révélons clairement leurs mécanismes.
Nous présentons les cartes de sensibilité sémantique, une nouvelle méthode permettant de visualiser l’impact des attaques d’empoisonnement.
Vérification expérimentale du comportement d'apprentissage non uniforme du DM et de l'impact des attaques d'empoisonnement.
Proposition et vérification de la performance de la formation en zone de sécurité (SZT), un mécanisme de défense efficace contre les attaques d'empoisonnement.
Obtenez une qualité de production améliorée par rapport aux défenses existantes.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de SZT se généralisent à différentes attaques d'empoisonnement et architectures DM.
Une analyse plus approfondie est nécessaire sur l’importance relative de chaque composant du SZT, y compris la compression JPEG, la limitation du pas de temps et le masquage avec perte.
Des résultats expérimentaux sur des ensembles de données réels sont nécessaires.
Des recherches sont nécessaires sur les attaques d’empoisonnement et les défenses contre d’autres techniques de personnalisation.
👍