Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BadPromptFL: Mối đe dọa cửa sau mới đối với việc học liên bang dựa trên lời nhắc trong các mô hình đa phương thức

Created by
  • Haebom

Tác giả

Maozhen Zhang, Mengnan Zhao, Bo Wang

Phác thảo

Bài báo này trình bày BadPromptFL, một cuộc tấn công cửa hậu mới vào học liên bang dựa trên lời nhắc (PromptFL) trong các mô hình học tương phản đa phương thức. BadPromptFL đưa các lời nhắc độc hại vào quy trình tổng hợp toàn cục bằng cách để các máy khách bị xâm phạm cùng tối ưu hóa các kích hoạt cửa hậu cục bộ và nhúng lời nhắc. Các lời nhắc độc hại này sau đó được truyền đến các máy khách lành tính, cho phép kích hoạt cửa hậu phổ quát trong quá trình suy luận mà không cần sửa đổi các tham số mô hình. Tận dụng hành vi học theo ngữ cảnh của kiến ​​trúc kiểu CLIP, BadPromptFL đạt được tỷ lệ thành công tấn công cao (ví dụ: >90%) với khả năng hiển thị tối thiểu và sự tham gia hạn chế của máy khách. Các thử nghiệm mở rộng trên nhiều tập dữ liệu và giao thức tổng hợp khác nhau chứng minh tính hiệu quả, khả năng ẩn náu và khả năng khái quát hóa của cuộc tấn công, làm dấy lên những lo ngại nghiêm trọng về tính mạnh mẽ của học liên bang dựa trên lời nhắc trong các triển khai thực tế.

Takeaways, Limitations

_____T94905____-: Đầu tiên, chúng tôi phát hiện ra một lỗ hổng bảo mật trong học tập liên kết dựa trên lời nhắc và trình bày một kỹ thuật tấn công cửa sau hiệu quả và bí mật có tên là BadPromptFL, nhấn mạnh nhu cầu tăng cường bảo mật cho các hệ thống học tập liên kết dựa trên lời nhắc trong môi trường thực tế. Kỹ thuật tấn công này, khai thác các đặc điểm của kiến ​​trúc kiểu CLIP, cho thấy khả năng áp dụng của nó cho các mô hình tương tự khác.
_____T94906____-: Bài báo này không đề cập đến các kỹ thuật phòng thủ chống lại kiểu tấn công BadPromptFL hiện đang được đề xuất. Cần nghiên cứu thêm về các kỹ thuật phòng thủ khác nhau. Vì những kết quả này là kết quả thử nghiệm trên một tập dữ liệu và kiến ​​trúc mô hình cụ thể, nên cần nghiên cứu thêm để xác định khả năng khái quát hóa của chúng cho các môi trường khác.
👍