Este artículo presenta un método novedoso para mejorar la seguridad de los modelos de lenguaje a gran escala (LLM). Los métodos de entrenamiento de seguridad existentes suelen basarse en el ajuste fino, lo que obliga al modelo a rechazar respuestas a solicitudes maliciosas, lo que suele provocar un rendimiento deficiente. En este artículo, proponemos un método para añadir un token especial, denominado "token de bandera roja", al vocabulario del modelo y entrenarlo para que lo inserte en las respuestas cuando se genere o sea probable que se genere contenido malicioso. Este método permite al modelo aprender explícitamente el concepto de nocividad, manteniendo su utilidad, y proporciona la misma robustez que el entrenamiento adversarial al evaluar cada respuesta generada. Además, encapsulamos el ajuste de seguridad mediante módulos LoRA, lo que proporciona una defensa adicional contra ataques de API de ajuste fino.