Este artículo propone IDEATOR, un novedoso método para evaluar la robustez de los Modelos de Lenguaje de Visión (VLM) a gran escala contra ataques de jailbreak que inducen salida maliciosa, para la implementación segura de VLM. Para superar la falta de datos multimodales diversos, una limitación de la investigación existente, aprovechamos el propio VLM para generar pares de textos de jailbreak específicos e imágenes de jailbreak generadas por modelos de propagación de vanguardia. IDEATOR alcanza una tasa de éxito de ataque (ASR) del 94% contra MiniGPT-4 y altas ASR contra LLaVA, InstructBLIP y Chameleon, lo que demuestra su efectividad y transferibilidad. Además, presentamos VLJailbreakBench, un punto de referencia de seguridad compuesto por 3654 muestras de jailbreak multimodal. Demostramos una alineación de seguridad significativa en 11 VLM lanzados recientemente (p. ej., GPT-4o con 46,31% ASR y Claude-3.5-Sonnet con 19,65% ASR).