Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tấn công suy luận thành viên vào hệ thống đề xuất dựa trên LLM

Created by
  • Haebom

Tác giả

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

Phác thảo

Bài báo này tập trung vào các mối đe dọa quyền riêng tư trong hệ thống đề xuất dựa trên mô hình ngôn ngữ quy mô lớn (LLM) (RecSys). RecSys dựa trên LLM tận dụng học tập theo ngữ cảnh (ICL) để cá nhân hóa các đề xuất bằng cách kết hợp dữ liệu tương tác nhạy cảm trong quá khứ của người dùng (ví dụ: sản phẩm đã nhấp, đánh giá sản phẩm) vào lời nhắc hệ thống. Thông tin nhạy cảm này đặt ra nguy cơ cho các cuộc tấn công quyền riêng tư mới, nhưng vẫn còn thiếu nghiên cứu về chủ đề này. Trong bài báo này, chúng tôi thiết kế bốn cuộc tấn công suy luận thành viên (MIA)—câu hỏi trực tiếp, ảo giác, tương tự và nhiễm bẩn—để xác định xem dữ liệu tương tác trong quá khứ của người dùng có được sử dụng trong lời nhắc hệ thống hay không. Chúng tôi đánh giá các cuộc tấn công này bằng cách sử dụng ba LLM và hai tập dữ liệu chuẩn RecSys. Kết quả thử nghiệm của chúng tôi chứng minh rằng các cuộc tấn công câu hỏi trực tiếp và nhiễm bẩn đạt tỷ lệ thành công tấn công cao đáng kể, chứng minh tính thực tiễn của các mối đe dọa MIA trong LLM RecSys. Chúng tôi cũng phân tích các yếu tố ảnh hưởng đến cuộc tấn công, chẳng hạn như số lần bắn trong lời nhắc hệ thống và vị trí của nạn nhân.

Takeaways, Limitations

Takeaways: Bài báo này chứng minh tính thực tế của các mối đe dọa quyền riêng tư trong các hệ thống RecSys dựa trên LLM và nhấn mạnh tầm quan trọng của việc bảo vệ quyền riêng tư trong quá trình phát triển RecSys dựa trên LLM trong tương lai bằng cách chứng minh hiệu quả cao của các cuộc tấn công đặt câu hỏi trực tiếp và tấn công gây nhiễu. Hơn nữa, bài báo phân tích các yếu tố ảnh hưởng đến các cuộc tấn công này và đề xuất các hướng đi cho các kỹ thuật phòng thủ trong tương lai.
Limitations: Vì đánh giá được thực hiện với số lượng hạn chế các LLM và tập dữ liệu, cần nghiên cứu thêm về phạm vi rộng hơn của các LLM và tập dữ liệu này. Hơn nữa, ngoài tấn công MIA được đề xuất, cần xem xét các loại tấn công quyền riêng tư khác. Cần nghiên cứu thêm để đánh giá tỷ lệ thành công của các cuộc tấn công và hiệu quả của các kỹ thuật phòng thủ trong môi trường dịch vụ thực tế.
👍