Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Desencadenante sin rastro: Hacia un ataque de puerta trasera sigiloso en modelos de difusión de texto a imagen

Created by
  • Haebom

Autor

Jie Zhang, Zhongqi Wang, Shiguang Shan, Xilin Chen

Describir

Este artículo analiza las últimas tendencias en ataques de puerta trasera dirigidos a modelos de difusión de texto-imagen y señala el problema de aumentar la detectabilidad explotando dos vulnerabilidades de las muestras de puerta trasera existentes: la consistencia semántica y la consistencia del mecanismo de atención. Para resolver este problema, proponemos una técnica de ataque de puerta trasera denominada Trigger without Trace (TwT). TwT rompe la consistencia semántica utilizando estructuras sintácticas como desencadenadores y destruye la consistencia del mecanismo de atención mediante un método de regularización basado en la Discrepancia Máxima Media del Kernel (KMMD) para ocultar las muestras de puerta trasera. Los resultados experimentales muestran que TwT tiene una tasa de éxito del 97,5 %, una alta resistencia a las técnicas de defensa existentes y elude tres mecanismos de detección de vanguardia con una tasa promedio superior al 98 %. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Aclara las vulnerabilidades (consistencia semántica y del mecanismo de atención) de los ataques de puerta trasera existentes.
Muestra que la técnica TwT permite ataques de puerta trasera más sigilosos y poderosos.
Revela las limitaciones de las técnicas de defensa de puerta trasera existentes.
Sugiere la necesidad de una mayor seguridad en los modelos de difusión de texto-imagen.
Limitations:
Se necesitan más investigaciones sobre los efectos a largo plazo de TwT y su resistencia a diversas técnicas de defensa.
Se necesita más análisis sobre la generalidad y las limitaciones de los activadores basados en sintaxis.
Se necesita más investigación sobre el costo computacional y el potencial de optimización de los métodos de regularización basados en KMMD.
👍