본 논문은 대규모 언어 모델(LLM)의 안전성 향상을 위한 새로운 방법을 제안합니다. 기존의 미세 조정 기반 안전 교육 방법들은 유해한 요청에 대해 모델의 출력 분포를 극적으로 변화시켜, 안전하지 않은 응답에서 응답 거부로 전환하는데 초점을 맞춥니다. 이는 모델의 기능을 저해하고, 긍정적인 응답을 유도하는 공격에 취약하게 만들 수 있습니다. 본 논문에서는 '레드 플래그 토큰'이라는 특수 토큰을 어휘에 추가하고, 유해한 콘텐츠가 생성되거나 생성되려 할 때 이 토큰을 생성하도록 모델을 미세 조정하는 방법을 제안합니다. 이 방법은 모델이 대화 중 언제든지 유해성을 생성적으로 분류하도록 하여, 유해성 개념을 명시적으로 학습하면서 생성 분포에는 최소한의 영향만 미치도록 합니다. 이는 입력 프롬프트뿐 아니라 각 생성된 응답을 평가하고, 샘플링 기반 공격에 대한 더 강력한 방어를 제공합니다. 또한 모델의 강건성 평가를 단순화하고, 분류기와 결합했을 때 상관된 실패를 줄입니다. 긴 맥락과 감독 미세 조정 공격에 대한 강건성 향상도 보여줍니다.