Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

IDEATOR: Bẻ khóa và đánh giá chuẩn các mô hình ngôn ngữ thị giác lớn bằng chính chúng

Created by
  • Haebom

Tác giả

Nhược Phàm Vương, Lý Quân Thành, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

Phác thảo

Bài báo này đề xuất IDEATOR, một phương pháp mới để đánh giá tính mạnh mẽ của các Mô hình Ngôn ngữ Thị giác (VLM) quy mô lớn chống lại các cuộc tấn công bẻ khóa gây ra đầu ra độc hại, nhằm triển khai VLM một cách an toàn. Để khắc phục tình trạng thiếu dữ liệu đa phương thức, một hạn chế của nghiên cứu hiện có, chúng tôi tận dụng chính VLM để tạo ra các cặp văn bản bẻ khóa có mục tiêu và hình ảnh bẻ khóa được tạo ra bởi các mô hình lan truyền tiên tiến. IDEATOR đạt tỷ lệ thành công tấn công (ASR) là 94% đối với MiniGPT-4 và ASR cao đối với LLaVA, InstructBLIP và Chameleon, chứng minh tính hiệu quả và khả năng chuyển giao của nó. Hơn nữa, chúng tôi giới thiệu VLJailbreakBench, một chuẩn mực an toàn bao gồm 3.654 mẫu bẻ khóa đa phương thức. Chúng tôi chứng minh sự liên kết an toàn đáng kể trên 11 VLM được phát hành gần đây (ví dụ: GPT-4o với 46,31% ASR và Claude-3.5-Sonnet với 19,65% ASR).

Takeaways, Limitations

Takeaways:
IDEATOR, một phương pháp tấn công bẻ khóa mới sử dụng chính VLM, được trình bày và chứng minh tính hiệu quả cao cũng như khả năng chuyển giao của nó.
VLJailbreakBench, chuẩn mực an toàn cho nhiều VLM khác nhau, đã được phát hành.
Nó phơi bày những lỗ hổng nghiêm trọng trong bảo mật VLM hiện tại và nhấn mạnh nhu cầu phòng thủ mạnh mẽ hơn.
Limitations:
Hiệu suất của IDEATOR có thể phụ thuộc vào hiệu suất của mô hình khuếch tán được sử dụng và VLM.
VLJailbreakBench có thể bị giới hạn về phạm vi và có thể cần đến một bộ dữ liệu đa dạng và mở rộng hơn.
IDEATOR có thể không đảm bảo hiệu quả như nhau cho tất cả các VLM (khả năng phát triển cơ chế phòng vệ cho các mô hình cụ thể).
👍