Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IDEATOR: Liberación y evaluación comparativa de grandes modelos de lenguaje de visión que se utilizan a sí mismos

Created by
  • Haebom

Autor

Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

Describir

Este artículo propone IDEATOR, un novedoso método para evaluar la robustez de los Modelos de Lenguaje de Visión (VLM) a gran escala contra ataques de jailbreak que inducen salida maliciosa, para la implementación segura de VLM. Para superar la falta de datos multimodales diversos, una limitación de la investigación existente, aprovechamos el propio VLM para generar pares de textos de jailbreak específicos e imágenes de jailbreak generadas por modelos de propagación de vanguardia. IDEATOR alcanza una tasa de éxito de ataque (ASR) del 94% contra MiniGPT-4 y altas ASR contra LLaVA, InstructBLIP y Chameleon, lo que demuestra su efectividad y transferibilidad. Además, presentamos VLJailbreakBench, un punto de referencia de seguridad compuesto por 3654 muestras de jailbreak multimodal. Demostramos una alineación de seguridad significativa en 11 VLM lanzados recientemente (p. ej., GPT-4o con 46,31% ASR y Claude-3.5-Sonnet con 19,65% ASR).

Takeaways, Limitations

Takeaways:
Se presenta IDEATOR, un nuevo método de ataque jailbreak que utiliza el propio VLM y se demuestra su alta efectividad y transferibilidad.
Se lanza VLJailbreakBench, un punto de referencia de seguridad para varios VLM.
Expone graves vulnerabilidades en la seguridad actual de VLM y resalta la necesidad de defensas más fuertes.
Limitations:
El rendimiento de IDEATOR puede depender del rendimiento del modelo de difusión utilizado y del VLM.
Es posible que VLJailbreakBench tenga un alcance limitado y que se requiera un conjunto de datos más diverso y extenso.
IDEATOR puede no garantizar la misma efectividad para todos los VLM (posibilidad de desarrollar mecanismos de defensa para modelos específicos).
👍