Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

RevPRAG: Phát hiện các cuộc tấn công đầu độc trong thế hệ tăng cường truy xuất thông qua phân tích kích hoạt LLM

Created by
  • Haebom

Tác giả

Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai

Phác thảo

Bài báo này trình bày RevPRAG, một kỹ thuật phát hiện mới cho các cuộc tấn công đầu độc RAG, một lỗ hổng trong các hệ thống Tạo dữ liệu Tăng cường Truy xuất (RAG). Đầu độc RAG liên quan đến việc chèn văn bản độc hại vào cơ sở dữ liệu kiến ​​thức để buộc LLM tạo ra các phản hồi theo mong muốn của kẻ tấn công. RevPRAG phát hiện các cuộc tấn công này bằng cách phân tích các mẫu kích hoạt của LLM để phân biệt giữa phản hồi bình thường và phản hồi độc hại. Chúng tôi chứng minh rằng kỹ thuật này đạt tỷ lệ dương tính thật là 98% và tỷ lệ dương tính giả gần 1% trên nhiều tập dữ liệu chuẩn và kiến ​​trúc RAG khác nhau.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày hiệu quả của việc phát hiện tấn công ngộ độc RAG thông qua phân tích mẫu kích hoạt LLM.
Chúng tôi trình bày kỹ thuật RevPRAG đạt độ chính xác cao (tỷ lệ dương tính thật là 98%, tỷ lệ dương tính giả gần 1%).
Nó đưa ra hướng đi mới để tăng cường tính bảo mật của hệ thống RAG.
Limitations:
Vì đây là kết quả đánh giá hiệu suất cho các kiến ​​trúc LLM và RAG cụ thể nên khả năng tổng quát hóa của chúng cho các mô hình và kiến ​​trúc khác cần được nghiên cứu thêm.
Khi tính đa dạng và phức tạp của các cuộc tấn công tăng lên, khả năng làm giảm hiệu suất RevPRAG sẽ xuất hiện.
Cần có thêm nghiên cứu để xác minh tính hiệu quả của nó trong bối cảnh thực tế.
👍