Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CopyrightShield: Mejora de la seguridad del modelo de difusión contra ataques de infracción de derechos de autor

Created by
  • Haebom

Autor

Zhixiang Guo, Siyuan Liang, Aishan Liu, Dacheng Tao

Describir

Este artículo propone CopyrightShield, un marco de defensa contra ataques de infracción de derechos de autor en modelos de difusión. Se centra en ataques en los que los atacantes inyectan intencionalmente imágenes sin derechos de autor en los datos de entrenamiento, lo que induce la generación de contenido que infringe los derechos de autor para indicaciones específicas. CopyrightShield analiza el mecanismo de memoria del modelo de difusión para revelar que el ataque explota el sobreajuste a ubicaciones espaciales e indicaciones específicas. Posteriormente, propone un método para detectar muestras tóxicas mediante enmascaramiento espacial e imputación de datos. Además, reduce la dependencia de las características de infracción de derechos de autor y mantiene el rendimiento de la generación mediante una estrategia de optimización adaptativa que incorpora términos de penalización dinámicos en la pérdida de entrenamiento. Los resultados experimentales muestran que CopyrightShield mejora significativamente el rendimiento de la detección de muestras tóxicas en dos escenarios de ataque, logrando una puntuación F1 promedio de 0,665, un retraso en la Era del Primer Ataque (FAE) del 115,2 % y una reducción del 56,7 % en la Tasa de Infracción de Derechos de Autor (CIR). Esto representa una mejora del 25 % con respecto a la defensa existente de mejor rendimiento.

Takeaways, Limitations

Takeaways:
Presentamos CopyrightShield, un marco de defensa eficaz contra ataques de infracción de derechos de autor utilizando modelos de difusión.
Demostración de la eficacia de un método para detectar muestras envenenadas utilizando enmascaramiento espacial y atribución de datos.
Presentamos la posibilidad de reducir la dependencia de la infracción de derechos de autor y mantener el rendimiento generacional a través de estrategias de optimización adaptativa.
Se confirmó una mejora del 25% en el efecto de defensa en comparación con la mejor defensa de rendimiento existente.
Limitations:
Se necesita más investigación sobre el desempeño de generalización de la defensa propuesta.
Es necesaria una evaluación de robustez frente a distintos tipos de ataques de infracción de derechos de autor.
Es necesario explorar los potenciales problemas y soluciones que pueden surgir al aplicarlo en entornos reales.
👍