Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

LeakSealer: Hệ thống phòng thủ bán giám sát cho LLM chống lại các cuộc tấn công rò rỉ và tiêm nhanh

Created by
  • Haebom

Tác giả

Francesco Panebianco, Stefano Bonfanti, Francesco Trov o, Michele Carminati

Phác thảo

Bài báo này tập trung vào các mối đe dọa bảo mật do việc sử dụng rộng rãi các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là các cuộc tấn công bẻ khóa và rò rỉ dữ liệu. Chúng tôi lưu ý rằng việc tạo truy xuất tăng cường (RAG), giúp tăng cường nhận thức theo ngữ cảnh trong LLM, cũng tạo ra các lỗ hổng bảo mật cho việc rò rỉ thông tin nhạy cảm. Do đó, chúng tôi trình bày một phương pháp phân tích dữ liệu tương tác lịch sử trong các hệ thống LLM để tạo ra các bản đồ sử dụng theo chủ đề cụ thể (bao gồm cả đối kháng). Phương pháp này cung cấp thông tin pháp y để theo dõi sự phát triển của các mẫu tấn công bẻ khóa. Hơn nữa, chúng tôi đề xuất LeakSealer, một khuôn khổ độc lập với mô hình, kết hợp phân tích tĩnh để tìm hiểu sâu về mặt pháp y với các biện pháp phòng thủ động của quy trình con người trong vòng lặp (HITL). LeakSealer xác định các nhóm chủ đề và phát hiện các mẫu bất thường, cho phép các cơ chế phòng thủ chủ động. Chúng tôi đánh giá LeakSealer bằng thực nghiệm trong hai kịch bản: các nỗ lực bẻ khóa (sử dụng tập dữ liệu chuẩn công khai) và rò rỉ PII (sử dụng tập dữ liệu được chọn lọc về các tương tác LLM được gắn nhãn). Trong các thiết lập tĩnh, LeakSealer đạt được độ chính xác và khả năng thu hồi cao nhất khi xác định các lần tiêm mã độc nhanh chóng vào tập dữ liệu ToxicChat. Trong các thiết lập động, nó đạt được AUPRC là 0,97 để phát hiện rò rỉ PII, vượt trội hơn đáng kể so với các mô hình cơ sở như Llama Guard.

Takeaways, Limitations

Takeaways:
Trình bày phương pháp phân tích và phòng thủ hiệu quả chống lại các mối đe dọa bảo mật (bẻ khóa và rò rỉ dữ liệu) trong các hệ thống LLM.
Theo dõi sự phát triển của các kiểu tấn công bẻ khóa thông qua phân tích dữ liệu tương tác LLM.
ÁP dụng cho nhiều LLM khác nhau thông qua khuôn khổ LeakSealer độc lập với mô hình.
ĐạT được khả năng phát hiện mối đe dọa có độ chính xác cao với quy trình HITL kết hợp phân tích tĩnh và động.
Thể hiện hiệu suất vượt trội so với các mô hình phòng thủ hiện có (ví dụ: Llama Guard).
Limitations:
Cần có thêm nghiên cứu về ứng dụng thực tế của phương pháp và khuôn khổ đề xuất.
ĐáNh giá hiệu suất tổng quát là cần thiết cho nhiều loại hệ thống LLM và RAG.
Nhu cầu đánh giá khả năng thích ứng với các loại tấn công bẻ khóa và đánh cắp dữ liệu mới.
Cần phải phân tích chi phí tính toán và sự suy giảm hiệu suất của LeakSealer.
Cần cân nhắc đến những hạn chế của tập dữ liệu được sử dụng (kích thước, tính đa dạng, tính đại diện, v.v.).
👍