Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tấn công LLM và tác nhân AI: Quảng cáo Nhúng tấn công vào các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Qiming Guo, Jinwen Tang, Xingran Huang

Phác thảo

Bài báo này giới thiệu về Tấn công Chèn Quảng cáo (AEA), một mối đe dọa bảo mật mới đối với các mô hình ngôn ngữ quy mô lớn (LLM). AEA ngấm ngầm chèn nội dung quảng cáo hoặc độc hại vào đầu ra của mô hình và tác nhân AI thông qua hai vectơ chi phí thấp: khai thác các nền tảng phân phối dịch vụ của bên thứ ba để thêm lời nhắc đối nghịch hoặc xuất bản các điểm kiểm tra nguồn mở với các cửa hậu được tinh chỉnh bằng dữ liệu của kẻ tấn công. Không giống như các cuộc tấn công làm giảm độ chính xác truyền thống, AEA làm tổn hại đến tính toàn vẹn của thông tin, khiến mô hình có vẻ vô hại nhưng lại bí mật trả về quảng cáo, tuyên truyền hoặc ngôn từ kích động thù địch. Bài báo này trình bày chi tiết về đường ống tấn công, lập bản đồ năm nhóm nạn nhân là bên liên quan và trình bày một biện pháp phòng thủ tự kiểm tra dựa trên lời nhắc sớm giúp giảm thiểu các cuộc chèn này mà không cần đào tạo lại mô hình bổ sung. Những phát hiện của chúng tôi nêu bật những thách thức cấp bách và chưa được giải quyết trong bảo mật LLM, kêu gọi cộng đồng an toàn AI phối hợp phát hiện, kiểm toán và phản hồi chính sách.

Takeaways, Limitations

Takeaways:
Chúng tôi xác định AEA, một mối đe dọa bảo mật mới đối với LLM và phân tích chi tiết phương thức tấn công của nó.
Trình bày kỹ thuật phòng thủ tự kiểm tra dựa trên lời nhắc sớm chống lại các cuộc tấn công AEA.
Nêu bật các lỗ hổng bảo mật trong LLM, chúng tôi nêu lên nhu cầu cần có những phản ứng chủ động từ cộng đồng an toàn AI.
Limitations:
Cần nghiên cứu thêm để xác định liệu các kỹ thuật phòng thủ được đề xuất có hiệu quả chống lại mọi loại tấn công AEA hay không.
Cần phải phân tích sâu hơn về các biến thể khác nhau và khả năng mở rộng của các cuộc tấn công AEA.
Thiếu thử nghiệm và xác thực rộng rãi về các cuộc tấn công AEA trong môi trường thực tế.
👍