[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tự động hóa việc điều khiển cho các mô hình ngôn ngữ lớn đa phương thức an toàn

Created by
  • Haebom

Tác giả

Lyuchen Wu, Mengru Wang, Ziwen Xu, Trí Cao, Nay Oo, Bryan Hooi, Shumin Deng

Phác thảo

Trong bài báo này, chúng tôi đề xuất AutoSteer, một kỹ thuật phân xử thời gian suy luận nhằm cải thiện tính an toàn của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). AutoSteer bao gồm ba thành phần cốt lõi: Điểm Nhận thức An toàn (SAS), các đầu dò an toàn thích ứng và các đầu từ chối nhẹ, mà không cần tinh chỉnh các mô hình cơ sở. SAS tự động xác định các khác biệt liên quan đến an toàn giữa các lớp trong một mô hình, các đầu dò an toàn thích ứng ước tính khả năng xuất hiện các đầu ra có hại từ các biểu diễn trung gian, và các đầu từ chối điều chỉnh chọn lọc việc tạo ra khi phát hiện các mối nguy hiểm về an toàn. Kết quả thử nghiệm sử dụng LLaVA-OV và Chameleon cho thấy AutoSteer làm giảm đáng kể tỷ lệ tấn công thành công (ASR) đối với các mối đe dọa văn bản, hình ảnh và đa phương thức trong khi vẫn duy trì chức năng chung.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp một khuôn khổ hiệu quả và dễ hiểu để cải thiện tính an toàn ở giai đoạn suy luận của MLLM.
Có thể tăng cường tính an toàn mà không cần tinh chỉnh mô hình cơ sở.
Tăng cường hiệu quả bảo mật chống lại nhiều loại mối đe dọa đa chế độ.
Chúng tôi trình bày một phương pháp thực tế để triển khai an toàn các hệ thống AI đa phương thức trong thế giới thực.
Limitations:
Cần nghiên cứu thêm để đánh giá hiệu suất tổng quát của phương pháp đề xuất. Có thể cần phải thực hiện nhiều thử nghiệm trên nhiều MLLM và các mối đe dọa bảo mật khác nhau.
Có thể cần nghiên cứu thêm để xác định cài đặt thông số tối ưu cho SAS, đầu dò an toàn thích ứng và đầu loại bỏ.
Cần phải đánh giá độ mạnh mẽ của AutoSteer trước các loại mối đe dọa an toàn mới.
👍