본 논문은 대규모 언어 모델(LLM)의 안전성 향상을 위한 새로운 방법을 제시합니다. 기존의 안전 교육 방법들은 유해한 요청에 대해 모델의 응답을 거부하도록 강제하는 미세 조정(fine-tuning)에 기반하여 모델의 성능 저하를 초래하는 경우가 많습니다. 본 논문에서는 '레드 플래그 토큰'이라는 특수 토큰을 모델 어휘에 추가하고, 유해한 콘텐츠가 생성되거나 생성될 가능성이 있을 때 이 토큰을 응답에 삽입하도록 모델을 훈련하는 방법을 제안합니다. 이 방법은 모델의 유용성을 유지하면서 유해성 개념을 명시적으로 학습할 수 있도록 하며, 각 생성된 답변을 평가하여 적대적 훈련만큼의 강건성을 제공합니다. 또한, LoRA 모듈을 사용하여 안전 조정을 캡슐화함으로써 미세 조정 API 공격에 대한 추가적인 방어 기능을 제공합니다.