Bài báo này trình bày một lỗ hổng mới trong các tương tác dựa trên âm thanh với các mô hình ngôn ngữ quy mô lớn (LLM) và giới thiệu WhisperInject, một khuôn khổ tấn công mới khai thác nó. WhisperInject thao túng các LLM âm thanh tiên tiến bằng cách sử dụng các nhiễu loạn âm thanh tinh vi, không thể nhận biết được của con người để tạo ra nội dung độc hại. Khuôn khổ hai giai đoạn này sử dụng học tăng cường và giảm dần độ dốc dự kiến (RL-PGD) trong giai đoạn đầu tiên để bỏ qua các giao thức an toàn của mô hình và tạo ra các phản hồi thô độc hại. Trong giai đoạn thứ hai, giảm dần độ dốc dự kiến (PGD) được sử dụng để nhúng các phản hồi độc hại vào âm thanh lành tính (ví dụ: câu hỏi về thời tiết, lời chào, v.v.). Nhắm mục tiêu vào các mô hình Qwen2.5-Omni-3B, Qwen2.5-Omni-7B và Phi-4-Multimodal, chúng tôi đạt được tỷ lệ thành công hơn 86% trong các khuôn khổ đánh giá an toàn nghiêm ngặt bao gồm StrongREJECT, LlamaGuard và đánh giá của con người. Nghiên cứu này trình bày một mối đe dọa mới dựa trên âm thanh, vượt ra ngoài các cuộc tấn công lý thuyết và chứng minh một phương pháp thao túng AI thực tế và bí mật.