Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Liberación de modelos de lenguaje multimodales grandes mediante inconsistencia de Shuffle

Created by
  • Haebom

Autor

Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Shouwei Ruan, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei

Describir

Este artículo aborda la vulnerabilidad del mecanismo de seguridad de los modelos de lenguaje multimodales a gran escala (MLLM). Los métodos de ataque de jailbreak existentes eluden el mecanismo de seguridad mediante técnicas de optimización complejas o indicaciones de imagen y texto cuidadosamente diseñadas, pero tienen la limitación de una baja tasa de éxito de ataque contra MLLM comerciales cerrados. En este artículo, encontramos el fenómeno de la inconsistencia de mezcla entre la capacidad de comprensión y la capacidad de seguridad de MLLM. Es decir, MLLM entiende bien las instrucciones dañinas mezcladas (capacidad de comprensión), pero al mismo tiempo, el mecanismo de seguridad puede ser fácilmente eludido por las instrucciones dañinas mezcladas (capacidad de seguridad). Proponemos SI-Attack, una técnica de ataque de jailbreak de texto a imagen, que utiliza la inconsistencia de mezcla y aplica una técnica de optimización de caja negra basada en consultas basada en la retroalimentación del modelo de juicio de toxicidad para seleccionar la entrada mezclada más dañina. Nuestros resultados experimentales muestran que SI-Attack mejora el rendimiento del ataque en tres puntos de referencia y, en particular, aumenta significativamente la tasa de éxito del ataque en MLLM comerciales como GPT-4o y Claude-3.5-Sonnet.

Takeaways, Limitations

Takeaways:
Descubrimos una nueva vulnerabilidad en el mecanismo de seguridad de MLLM, el fenómeno de desajuste aleatorio, y propusimos una técnica efectiva de ataque de jailbreak (SI-Attack) que lo explota.
Tasa de éxito de ataque mejorada contra MLLM comercial en comparación con los métodos existentes.
Presentamos una nueva dirección de investigación para mejorar la seguridad de MLLM.
Limitations:
La eficacia de SI-Attack puede depender del rendimiento del modelo de evaluación de toxicidad.
Puede que solo sea eficaz para ciertos tipos de MLLM. Se necesitan experimentos con una mayor variedad de MLLM.
Debido a que utiliza técnicas de optimización de caja negra, puede resultar computacionalmente costoso.
👍