Trong bài báo này, chúng tôi đề xuất JAILDAM, một khuôn khổ mới để phát hiện tấn công bẻ khóa nhằm triển khai an toàn các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Để khắc phục những hạn chế của các phương pháp hiện có, (1) chỉ áp dụng cho các mô hình hộp trắng, (2) chi phí tính toán cao và (3) dữ liệu được gán nhãn không đủ, JAILDAM sử dụng phương pháp dựa trên bộ nhớ với biểu diễn tri thức không an toàn dựa trên chính sách. Bằng cách cập nhật động các tri thức không an toàn tại thời điểm kiểm tra, JAILDAM duy trì hiệu quả đồng thời cải thiện hiệu suất khái quát hóa ngay cả khi đối mặt với các chiến lược bẻ khóa chưa được biết đến. Kết quả thử nghiệm trên một số điểm chuẩn bẻ khóa VLM cho thấy JAILDAM đạt được hiệu suất tiên tiến cả về độ chính xác và tốc độ.