Este artículo propone un mecanismo de defensa llamado PromptKeeper para abordar las preocupaciones de seguridad relacionadas con los avisos del sistema que guían la salida de los modelos de lenguaje a gran escala (LLM). Los avisos del sistema suelen contener lógica de negocio e información confidencial, lo que los hace vulnerables a la explotación de vulnerabilidades de los LLM mediante consultas maliciosas o comunes de usuario. PromptKeeper aborda dos desafíos clave: detectar fugas de avisos de forma fiable y mitigar las vulnerabilidades de canal lateral cuando se producen. Al enmarcar la detección de fugas como un problema de prueba de hipótesis, identifica eficazmente tanto fugas explícitas como sutiles. Cuando se detecta una fuga, regenera las respuestas utilizando avisos ficticios, haciéndolas indistinguibles de las interacciones normales sin fugas. En consecuencia, proporciona una protección robusta contra ataques de extracción de avisos mediante consultas maliciosas o comunes, a la vez que mantiene las capacidades conversacionales y la eficiencia de ejecución de las interacciones de usuario típicas.