Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cuando los buenos sonidos se vuelven antagónicos: Liberando modelos de audio-lenguaje con entradas benignas

Created by
  • Haebom

Autor

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, Donggeon Lee, Haon Park, Jaehoon Lee, Jongho Shin

Describir

Este artículo presenta una vulnerabilidad novedosa en interacciones de audio con modelos de lenguaje a gran escala (LLM) e introduce WhisperInject, un novedoso marco de ataque que la explota. WhisperInject manipula LLM de audio de última generación mediante perturbaciones de audio sutiles e imperceptibles para el ser humano para generar contenido malicioso. El marco de dos etapas utiliza aprendizaje por refuerzo y descenso de gradiente proyectado (RL-PGD) en la primera etapa para eludir los protocolos de seguridad del modelo y generar respuestas maliciosas sin procesar. En la segunda etapa, se utiliza el descenso de gradiente proyectado (PGD) para integrar respuestas maliciosas en audio benigno (p. ej., preguntas sobre el clima, saludos, etc.). Al abordar los modelos Qwen2.5-Omni-3B, Qwen2.5-Omni-7B y Phi-4-Multimodal, logramos una tasa de éxito superior al 86 % bajo rigurosos marcos de evaluación de seguridad, como StrongREJECT, LlamaGuard y evaluación humana. Esta investigación presenta una nueva amenaza basada en audio que va más allá de los ataques teóricos y demuestra un método de manipulación de IA práctico y sigiloso.

Takeaways, Limitations

Takeaways:
Descubrimiento de nuevas vulnerabilidades en las interacciones LLM basadas en audio.
Presentamos el marco WhisperInject, un método de manipulación de IA práctico y encubierto.
Se demostró una alta tasa de éxito bajo un sólido marco de evaluación de seguridad.
Se plantea la necesidad de fortalecer la seguridad de los LLM basados ​​en audio.
Limitations:
Actualmente limitado a verificar la efectividad del ataque para modelos LLM específicos.
Se necesitan más investigaciones para determinar la robustez del ataque contra diversos entornos de audio y ruido.
Se necesita más investigación sobre las técnicas de defensa de WhisperInject.
👍