Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CopyrightShield : Amélioration de la sécurité du modèle de diffusion contre les attaques de violation du droit d'auteur

Created by
  • Haebom

Auteur

Zhixiang Guo, Siyuan Liang, Aishan Liu, Dacheng Tao

Contour

Cet article propose CopyrightShield, un cadre de défense contre les attaques de violation de droits d'auteur sur les modèles de diffusion. Il se concentre sur les attaques où les attaquants injectent intentionnellement des images non protégées par le droit d'auteur dans les données d'entraînement, induisant ainsi la génération de contenu contrefaisant pour des invites spécifiques. CopyrightShield analyse le mécanisme de mémoire du modèle de diffusion et révèle que l'attaque exploite le surapprentissage à des emplacements spatiaux et des invites spécifiques. Il propose ensuite une méthode de détection des échantillons toxiques utilisant le masquage spatial et l'imputation des données. De plus, il réduit la dépendance aux caractéristiques de violation de droits d'auteur et maintient les performances de génération grâce à une stratégie d'optimisation adaptative qui intègre des termes de pénalité dynamiques dans la perte d'entraînement. Les résultats expérimentaux montrent que CopyrightShield améliore significativement les performances de détection des échantillons toxiques dans deux scénarios d'attaque, atteignant un score F1 moyen de 0,665, un délai de première attaque (FAE) de 115,2 % et une réduction de 56,7 % du taux de violation de droits d'auteur (CIR). Cela représente une amélioration de 25 % par rapport à la défense existante la plus performante.

Takeaways, Limitations

Takeaways:
Nous présentons CopyrightShield, un cadre de défense efficace contre les attaques de violation du droit d'auteur utilisant des modèles de diffusion.
Démonstration de l'efficacité d'une méthode de détection d'échantillons empoisonnés utilisant le masquage spatial et l'attribution de données.
Nous présentons la possibilité de réduire la dépendance à la violation du droit d'auteur et de maintenir les performances de génération grâce à des stratégies d'optimisation adaptatives.
Effet de défense amélioré de 25 % confirmé par rapport à la meilleure défense de performance existante.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la défense proposée.
Une évaluation de la robustesse face à divers types d’attaques de violation du droit d’auteur est nécessaire.
Il est nécessaire d’explorer les problèmes potentiels et les solutions qui peuvent survenir lorsqu’ils sont appliqués dans des environnements réels.
👍