Este artículo presenta una vulnerabilidad novedosa en interacciones de audio con modelos de lenguaje a gran escala (LLM) e introduce WhisperInject, un novedoso marco de ataque que la explota. WhisperInject manipula LLM de audio de última generación mediante perturbaciones de audio sutiles e imperceptibles para el ser humano para generar contenido malicioso. El marco de dos etapas utiliza aprendizaje por refuerzo y descenso de gradiente proyectado (RL-PGD) en la primera etapa para eludir los protocolos de seguridad del modelo y generar respuestas maliciosas sin procesar. En la segunda etapa, se utiliza el descenso de gradiente proyectado (PGD) para integrar respuestas maliciosas en audio benigno (p. ej., preguntas sobre el clima, saludos, etc.). Al abordar los modelos Qwen2.5-Omni-3B, Qwen2.5-Omni-7B y Phi-4-Multimodal, logramos una tasa de éxito superior al 86 % bajo rigurosos marcos de evaluación de seguridad, como StrongREJECT, LlamaGuard y evaluación humana. Esta investigación presenta una nueva amenaza basada en audio que va más allá de los ataques teóricos y demuestra un método de manipulación de IA práctico y sigiloso.