Bài báo này trình bày BadPromptFL, cuộc tấn công cửa hậu đầu tiên vào học liên bang dựa trên lời nhắc (PromptFL) trong các mô hình học tương phản đa phương thức. BadPromptFL liên quan đến một máy khách bị xâm phạm cùng lúc tối ưu hóa các kích hoạt cửa hậu cục bộ và nhúng lời nhắc để đưa các lời nhắc độc hại vào quy trình tổng hợp toàn cục. Các lời nhắc độc hại này sau đó được truyền đến các máy khách lành tính, cho phép kích hoạt cửa hậu phổ quát trong quá trình suy luận mà không cần sửa đổi các tham số mô hình. Tận dụng hành vi học theo ngữ cảnh của kiến trúc kiểu CLIP, BadPromptFL đạt được tỷ lệ thành công tấn công cao (ví dụ: >90%) với khả năng hiển thị tối thiểu và sự tham gia hạn chế của máy khách. Các thử nghiệm mở rộng trên nhiều tập dữ liệu và giao thức tổng hợp khác nhau chứng minh tính hiệu quả, khả năng ẩn và khả năng khái quát hóa của cuộc tấn công này, làm dấy lên những lo ngại nghiêm trọng về tính mạnh mẽ của học liên bang dựa trên lời nhắc trong các triển khai thực tế.