Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Quand les bons sons deviennent conflictuels : jailbreaker les modèles de langage audio avec des entrées bénignes

Created by
  • Haebom

Auteur

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, Donggeon Lee, Haon Park, Jaehoon Lee, Jongho Shin

Contour

Cet article présente une nouvelle vulnérabilité dans les interactions audio avec des modèles de langage à grande échelle (LLM) et présente WhisperInject, un nouveau framework d'attaque qui l'exploite. WhisperInject manipule des LLM audio de pointe en utilisant des perturbations audio subtiles et imperceptibles par l'homme pour générer du contenu malveillant. Ce framework en deux étapes utilise l'apprentissage par renforcement et la descente de gradient projetée (RL-PGD) dans la première étape pour contourner les protocoles de sécurité du modèle et générer des réponses brutes malveillantes. Dans la deuxième étape, la descente de gradient projetée (PGD) est utilisée pour intégrer des réponses malveillantes dans des fichiers audio inoffensifs (par exemple, des questions météorologiques, des salutations, etc.). En ciblant les modèles Qwen2.5-Omni-3B, Qwen2.5-Omni-7B et Phi-4-Multimodal, nous obtenons un taux de réussite de plus de 86 % dans des cadres d'évaluation de sécurité rigoureux, notamment StrongREJECT, LlamaGuard et l'évaluation humaine. Cette recherche présente une nouvelle menace basée sur l’audio qui va au-delà des attaques théoriques et démontre une méthode de manipulation de l’IA pratique et furtive.

Takeaways, Limitations

Takeaways:
Découverte de nouvelles vulnérabilités dans les interactions LLM basées sur l'audio.
Présentation du framework WhisperInject, une méthode de manipulation de l'IA pratique et secrète.
A démontré un taux de réussite élevé dans le cadre d’une évaluation de sécurité robuste.
La nécessité de renforcer la sécurité du LLM basé sur l’audio est soulevée.
Limitations:
Actuellement limité à la vérification de l'efficacité de l'attaque pour des modèles LLM spécifiques.
Des recherches supplémentaires sont nécessaires pour déterminer la robustesse de l’attaque contre divers environnements audio et bruits.
Des recherches supplémentaires sont nécessaires sur les techniques de défense WhisperInject.
👍