Bài báo này đề xuất IDEATOR, một phương pháp mới để đánh giá tính mạnh mẽ của các Mô hình Ngôn ngữ Thị giác (VLM) quy mô lớn chống lại các cuộc tấn công bẻ khóa gây ra đầu ra độc hại, nhằm triển khai VLM một cách an toàn. Để khắc phục tình trạng thiếu dữ liệu đa phương thức, một hạn chế của nghiên cứu hiện có, chúng tôi tận dụng chính VLM để tạo ra các cặp văn bản bẻ khóa có mục tiêu và hình ảnh bẻ khóa được tạo ra bởi các mô hình lan truyền tiên tiến. IDEATOR đạt tỷ lệ thành công tấn công (ASR) là 94% đối với MiniGPT-4 và ASR cao đối với LLaVA, InstructBLIP và Chameleon, chứng minh tính hiệu quả và khả năng chuyển giao của nó. Hơn nữa, chúng tôi giới thiệu VLJailbreakBench, một chuẩn mực an toàn bao gồm 3.654 mẫu bẻ khóa đa phương thức. Chúng tôi chứng minh sự liên kết an toàn đáng kể trên 11 VLM được phát hành gần đây (ví dụ: GPT-4o với 46,31% ASR và Claude-3.5-Sonnet với 19,65% ASR).