Dans cet article, nous proposons JAILDAM, un nouveau framework de détection d'attaques de jailbreak pour le déploiement sécurisé de modèles de langage multimodaux à grande échelle (MLLM). Pour pallier les lacunes des méthodes existantes, qui sont (1) applicables uniquement aux modèles boîte blanche, (2) coûteuses en calcul et (3) insuffisantes en données étiquetées, JAILDAM utilise une approche basée sur la mémoire avec une représentation des connaissances non sécurisées basée sur des politiques. En mettant à jour dynamiquement les connaissances non sécurisées au moment du test, JAILDAM maintient son efficacité tout en améliorant les performances de généralisation, même face à des stratégies de jailbreak non identifiées. Les résultats expérimentaux obtenus sur plusieurs benchmarks de jailbreak VLM démontrent que JAILDAM atteint des performances de pointe en termes de précision et de rapidité.