Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CAVGAN: Thống nhất Bẻ khóa và Bảo vệ LLM thông qua các Cuộc tấn công Đối kháng Tạo sinh vào Biểu diễn Nội bộ của chúng

Created by
  • Haebom

Tác giả

Xiaohu Li, Yunfeng Ning, Zepeng Bao, Mayi Xu, Jianhao Chen, Tieyun Qian

Phác thảo

Bài báo này đề xuất một khuôn khổ mới tích hợp các cuộc tấn công và phòng thủ để giải quyết các lỗ hổng trong cơ chế căn chỉnh bảo mật của các mô hình ngôn ngữ quy mô lớn (LLM). Dựa trên khả năng phân tách tuyến tính của các lớp nhúng trung gian LLM và bản chất của các cuộc tấn công bẻ khóa (jailbreak) lan truyền các truy vấn độc hại đến các vùng bảo mật, chúng tôi sử dụng mạng đối kháng sinh sinh (GAN) để tìm hiểu các ranh giới quyết định bảo mật trong các LLM. Kết quả thử nghiệm cho thấy tỷ lệ bẻ khóa thành công trung bình là 88,85% trên ba LLM chính và tỷ lệ phòng thủ thành công trung bình là 84,17% trên một tập dữ liệu bẻ khóa hiện đại, xác thực tính hiệu quả của phương pháp được đề xuất và cung cấp những hiểu biết mới về các cơ chế bảo mật nội bộ của LLM. Mã và dữ liệu có sẵn tại https://github.com/NLPGM/CAVGAN .

Takeaways, Limitations

_____T182354____:
Cung cấp hiểu biết mới về cơ chế bảo mật nội bộ của LLM.
Chúng tôi trình bày một khuôn khổ tấn công và phòng thủ bẻ khóa hiệu quả sử dụng GAN.
Hiệu quả của phương pháp được chứng minh bằng tỷ lệ thành công vượt ngục cao (88,85%) và tỷ lệ thành công phòng thủ (84,17%).
Chúng tôi trình bày hướng đi mới để tăng cường bảo mật LLM.
Limitations:
Vì những kết quả này mang tính thử nghiệm trên các tập dữ liệu LLM và Jailbreak cụ thể nên cần nghiên cứu thêm để xác định khả năng khái quát hóa của chúng.
Các phương pháp dựa trên GAN có thể tốn kém về mặt tính toán.
Cần phải xác nhận thêm về khả năng thích ứng của nó với các kỹ thuật tấn công bẻ khóa mới.
👍