Bài báo này giới thiệu về Tấn công Chèn Quảng cáo (AEA), một mối đe dọa bảo mật mới đối với các mô hình ngôn ngữ quy mô lớn (LLM). AEA ngấm ngầm chèn nội dung quảng cáo hoặc độc hại vào đầu ra của mô hình và tác nhân AI thông qua hai vectơ chi phí thấp: khai thác các nền tảng phân phối dịch vụ của bên thứ ba để thêm lời nhắc đối nghịch hoặc xuất bản các điểm kiểm tra nguồn mở với các cửa hậu được tinh chỉnh bằng dữ liệu của kẻ tấn công. Không giống như các cuộc tấn công làm giảm độ chính xác truyền thống, AEA làm tổn hại đến tính toàn vẹn của thông tin, khiến mô hình có vẻ vô hại nhưng lại bí mật trả về quảng cáo, tuyên truyền hoặc ngôn từ kích động thù địch. Bài báo này trình bày chi tiết về đường ống tấn công, lập bản đồ năm nhóm nạn nhân là bên liên quan và trình bày một biện pháp phòng thủ tự kiểm tra dựa trên lời nhắc sớm giúp giảm thiểu các cuộc chèn này mà không cần đào tạo lại mô hình bổ sung. Những phát hiện của chúng tôi nêu bật những thách thức cấp bách và chưa được giải quyết trong bảo mật LLM, kêu gọi cộng đồng an toàn AI phối hợp phát hiện, kiểm toán và phản hồi chính sách.