Cet article présente une nouvelle vulnérabilité dans les interactions audio avec des modèles de langage à grande échelle (LLM) et présente WhisperInject, un nouveau framework d'attaque qui l'exploite. WhisperInject manipule des LLM audio de pointe en utilisant des perturbations audio subtiles et imperceptibles par l'homme pour générer du contenu malveillant. Ce framework en deux étapes utilise l'apprentissage par renforcement et la descente de gradient projetée (RL-PGD) dans la première étape pour contourner les protocoles de sécurité du modèle et générer des réponses brutes malveillantes. Dans la deuxième étape, la descente de gradient projetée (PGD) est utilisée pour intégrer des réponses malveillantes dans des fichiers audio inoffensifs (par exemple, des questions météorologiques, des salutations, etc.). En ciblant les modèles Qwen2.5-Omni-3B, Qwen2.5-Omni-7B et Phi-4-Multimodal, nous obtenons un taux de réussite de plus de 86 % dans des cadres d'évaluation de sécurité rigoureux, notamment StrongREJECT, LlamaGuard et l'évaluation humaine. Cette recherche présente une nouvelle menace basée sur l’audio qui va au-delà des attaques théoriques et démontre une méthode de manipulation de l’IA pratique et furtive.