Este artículo aborda la vulnerabilidad del mecanismo de seguridad de los modelos de lenguaje multimodales a gran escala (MLLM). Los métodos de ataque de jailbreak existentes eluden el mecanismo de seguridad mediante técnicas de optimización complejas o indicaciones de imagen y texto cuidadosamente diseñadas, pero tienen la limitación de una baja tasa de éxito de ataque contra MLLM comerciales cerrados. En este artículo, encontramos el fenómeno de la inconsistencia de mezcla entre la capacidad de comprensión y la capacidad de seguridad de MLLM. Es decir, MLLM entiende bien las instrucciones dañinas mezcladas (capacidad de comprensión), pero al mismo tiempo, el mecanismo de seguridad puede ser fácilmente eludido por las instrucciones dañinas mezcladas (capacidad de seguridad). Proponemos SI-Attack, una técnica de ataque de jailbreak de texto a imagen, que utiliza la inconsistencia de mezcla y aplica una técnica de optimización de caja negra basada en consultas basada en la retroalimentación del modelo de juicio de toxicidad para seleccionar la entrada mezclada más dañina. Nuestros resultados experimentales muestran que SI-Attack mejora el rendimiento del ataque en tres puntos de referencia y, en particular, aumenta significativamente la tasa de éxito del ataque en MLLM comerciales como GPT-4o y Claude-3.5-Sonnet.