[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

JailDAM: Phát hiện bẻ khóa bằng bộ nhớ thích ứng cho mô hình ngôn ngữ thị giác

Created by
  • Haebom

Tác giả

Yi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Phác thảo

Trong bài báo này, chúng tôi đề xuất JAILDAM, một khuôn khổ mới để phát hiện tấn công bẻ khóa nhằm triển khai an toàn các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Để khắc phục những hạn chế của các phương pháp hiện có, (1) chỉ áp dụng cho các mô hình hộp trắng, (2) chi phí tính toán cao và (3) dữ liệu được gán nhãn không đủ, JAILDAM sử dụng phương pháp dựa trên bộ nhớ với biểu diễn tri thức không an toàn dựa trên chính sách. Bằng cách cập nhật động các tri thức không an toàn tại thời điểm kiểm tra, JAILDAM duy trì hiệu quả đồng thời cải thiện hiệu suất khái quát hóa ngay cả khi đối mặt với các chiến lược bẻ khóa chưa được biết đến. Kết quả thử nghiệm trên một số điểm chuẩn bẻ khóa VLM cho thấy JAILDAM đạt được hiệu suất tiên tiến cả về độ chính xác và tốc độ.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ mới, JAILDAM, giúp cải thiện đáng kể hiệu suất phát hiện tấn công bẻ khóa của MLLM.
Chúng tôi đề xuất một phương pháp phát hiện hiệu quả có thể áp dụng cho môi trường thực tế, không giới hạn ở mô hình hộp trắng.
Giúp giải quyết vấn đề thiếu dữ liệu bằng cách giảm sự phụ thuộc vào dữ liệu được gắn nhãn.
Cập nhật kiến thức một cách linh hoạt tại thời điểm kiểm tra để cải thiện hiệu suất tổng quát hóa cho các chiến lược bẻ khóa mới.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của phương pháp đề xuất có bền vững hay không.
Cần đánh giá độ mạnh mẽ của các kiến trúc MLLM khác nhau và các chiến lược bẻ khóa.
Cần phải đánh giá hiệu suất và xác minh tính ổn định trong môi trường dịch vụ thực tế.
👍