Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BadPromptFL: Mối đe dọa cửa sau mới đối với việc học liên bang dựa trên lời nhắc trong các mô hình đa phương thức

Created by
  • Haebom

Tác giả

Maozhen Zhang, Mengnan Zhao, Wei Wang, Bo Wang

Phác thảo

Bài báo này trình bày BadPromptFL, cuộc tấn công cửa hậu đầu tiên vào học liên bang dựa trên lời nhắc (PromptFL) trong các mô hình học tương phản đa phương thức. BadPromptFL liên quan đến một máy khách bị xâm phạm cùng lúc tối ưu hóa các kích hoạt cửa hậu cục bộ và nhúng lời nhắc để đưa các lời nhắc độc hại vào quy trình tổng hợp toàn cục. Các lời nhắc độc hại này sau đó được truyền đến các máy khách lành tính, cho phép kích hoạt cửa hậu phổ quát trong quá trình suy luận mà không cần sửa đổi các tham số mô hình. Tận dụng hành vi học theo ngữ cảnh của kiến ​​trúc kiểu CLIP, BadPromptFL đạt được tỷ lệ thành công tấn công cao (ví dụ: >90%) với khả năng hiển thị tối thiểu và sự tham gia hạn chế của máy khách. Các thử nghiệm mở rộng trên nhiều tập dữ liệu và giao thức tổng hợp khác nhau chứng minh tính hiệu quả, khả năng ẩn và khả năng khái quát hóa của cuộc tấn công này, làm dấy lên những lo ngại nghiêm trọng về tính mạnh mẽ của học liên bang dựa trên lời nhắc trong các triển khai thực tế.

Takeaways, Limitations

Takeaways: Chúng tôi phát hiện một lỗ hổng bảo mật trong học liên kết dựa trên lời nhắc và đề xuất một kỹ thuật tấn công cửa hậu mới, BadPromptFL, gợi ý các hướng nghiên cứu để đảm bảo an ninh cho các hệ thống thực tế. Chúng tôi cũng chứng minh tính hiệu quả của một cuộc tấn công khai thác các đặc điểm học theo ngữ cảnh của kiến ​​trúc kiểu CLIP.
Limitations: Nghiên cứu về các kỹ thuật phòng thủ chống lại kỹ thuật tấn công hiện đang được đề xuất vẫn còn thiếu. Cần nghiên cứu thêm để xác định khả năng khái quát hóa của cuộc tấn công này đối với nhiều loại mô hình đa phương thức và các thiết lập học tập liên kết. Kết quả thử nghiệm bị giới hạn trong các tập dữ liệu và thiết lập cụ thể có thể hạn chế khả năng khái quát hóa hiệu quả của cuộc tấn công sang các môi trường khác.
👍