Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

IDEATOR: Liberación y evaluación comparativa de grandes modelos de lenguaje de visión que se utilizan a sí mismos

Created by
  • Haebom

Autor

Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

Describir

Este artículo propone IDEATOR, un novedoso método de ataque de jailbreak para la implementación segura de Modelos de Lenguaje de Visión (VLM) a gran escala, que explota las vulnerabilidades del modelo para inducir resultados maliciosos. IDEATOR aprovecha el propio VLM como un potente modelo adversarial para generar textos de jailbreak específicos, emparejándolos con imágenes de jailbreak generadas por un modelo de propagación de vanguardia. Los resultados experimentales muestran que IDEATOR alcanza una tasa de éxito de ataque (ASR) del 94% contra MiniGPT-4 y también demuestra una alta ASR contra LLaVA, InstructBLIP y Chameleon. Además, presentamos VLJailbreakBench, un benchmark de seguridad compuesto por 3654 muestras de jailbreak multimodo, que aprovecha la alta transferibilidad y el procesamiento automatizado de IDEATOR. Los resultados del benchmark contra 11 VLM lanzados recientemente muestran diferencias significativas en la alineación de seguridad.

Takeaways, Limitations

Takeaways:
IDEATOR presenta un nuevo método de ataque de jailbreak que utiliza el propio VLM.
Demostrando experimentalmente la alta eficiencia y transferibilidad de IDEATOR.
El benchmark VLJailbreakBench revela vulnerabilidades de seguridad en varios VLM
Destaca la necesidad de investigación y desarrollo para mejorar la seguridad de los VLM
Limitations:
La eficacia de IDEATOR puede depender del rendimiento del modelo VLM y de la difusión utilizados.
VLJailbreakBench apunta al VLM actual, por lo que su validez puede cambiar a medida que VLM evolucione en el futuro.
Los puntos de referencia presentados se centran en las tasas de éxito de los ataques contra VLM específicos y pueden carecer de una evaluación integral de varios tipos de actividad maliciosa.
👍