Este artículo presenta el "Secuestro de Conversaciones Humano-AI", una novedosa amenaza de seguridad que manipula las indicaciones del sistema de un modelo de lenguaje a gran escala (LLM) para generar respuestas maliciosas únicamente para preguntas específicas. Los actores maliciosos pueden manipular la información a gran escala difundiendo en línea indicaciones del sistema aparentemente inocuas. Para demostrar este ataque, los investigadores desarrollaron CAIN, un algoritmo que genera automáticamente indicaciones del sistema maliciosas para preguntas específicas en un entorno de caja negra. Evaluado tanto en LLM de código abierto como comerciales, CAIN logró una degradación de la puntuación F1 de hasta un 40 % para las preguntas objetivo, manteniendo una alta precisión para las entradas benignas. Obtuvo una puntuación F1 superior al 70 % para la generación de respuestas maliciosas específicas, minimizando el impacto en las preguntas benignas. Estos resultados resaltan la importancia de reforzar las medidas de robustez para garantizar la integridad y la seguridad de los LLM en aplicaciones del mundo real. El código fuente se pondrá a disposición del público.