En este artículo, proponemos JAILDAM, un nuevo marco para la detección de ataques de jailbreak para la implementación segura de modelos lingüísticos multimodales a gran escala (MLLM). Para abordar las deficiencias de los métodos existentes, que son (1) aplicables únicamente a modelos de caja blanca, (2) un alto coste computacional y (3) datos etiquetados insuficientes, JAILDAM utiliza un enfoque basado en memoria con representación de conocimiento inseguro basada en políticas. Al actualizar dinámicamente el conocimiento inseguro durante la prueba, mantiene la eficiencia y mejora el rendimiento de generalización, incluso frente a estrategias de jailbreak desconocidas. Los resultados experimentales en varias pruebas de rendimiento de jailbreak de VLM demuestran que JAILDAM alcanza un rendimiento de vanguardia tanto en precisión como en velocidad.