Bài báo này trình bày về "AI-Human Conversation Hijacking", một mối đe dọa bảo mật mới, thao túng các lời nhắc hệ thống của mô hình ngôn ngữ quy mô lớn (LLM) để tạo ra các câu trả lời độc hại chỉ cho các câu hỏi cụ thể. Kẻ tấn công có thể thực hiện thao túng thông tin quy mô lớn bằng cách phát tán trực tuyến các lời nhắc hệ thống tưởng chừng như vô hại. Để chứng minh cho cuộc tấn công này, các nhà nghiên cứu đã phát triển CAIN, một thuật toán tự động tạo ra các lời nhắc hệ thống độc hại cho các câu hỏi mục tiêu cụ thể trong môi trường hộp đen. Được đánh giá trên cả LLM mã nguồn mở và thương mại, CAIN đạt được mức giảm điểm F1 lên đến 40% cho các câu hỏi mục tiêu trong khi vẫn duy trì độ chính xác cao cho các đầu vào vô hại. Nó đạt được điểm F1 trên 70% khi tạo ra các câu trả lời độc hại cụ thể đồng thời giảm thiểu tác động lên các câu hỏi vô hại. Những kết quả này nhấn mạnh tầm quan trọng của việc tăng cường các biện pháp mạnh mẽ để đảm bảo tính toàn vẹn và bảo mật của LLM trong các ứng dụng thực tế. Mã nguồn sẽ được công bố rộng rãi.