본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전한 배포를 위해 탈옥 공격(jailbreak attack) 탐지를 위한 새로운 프레임워크인 JAILDAM을 제시합니다. 기존 방법들의 한계점인 백색 상자 모델에 대한 의존성, 높은 계산 비용, 그리고 충분한 라벨링된 데이터 부족 문제를 해결하기 위해, JAILDAM은 정책 기반의 불안전 지식 표현을 이용한 메모리 기반 접근 방식을 채택합니다. 테스트 시간에 불안전 지식을 동적으로 업데이트하여, 새로운 탈옥 전략에도 일반화 성능을 향상시키면서 효율성을 유지합니다. 다양한 VLM 탈옥 벤치마크 실험을 통해 JAILDAM이 정확도와 속도 면에서 최첨단 성능을 달성함을 보여줍니다.