대규모 언어 모델(LLM)의 안전성을 향상시키기 위해, 모델의 어휘에 유해 콘텐츠 생성 시 삽입되는 특수 "red flag" 토큰을 추가하는 방법을 제안한다. 이 토큰 삽입을 통해 모델이 유해성에 대한 개념을 명시적으로 학습하도록 유도하며, 자연어 생성 분포에 미치는 영향은 최소화한다. 또한, 모델의 일반화 능력을 활용하여, in-context learning(ICL)을 통해 red flag 토큰 생성 시 반성적 추론을 유도하고, 유해한 응답을 회피하거나 자체 수정하도록 돕는다. 이는 기존 안전 기술과 상호 보완적이며, 답변의 무해성을 평가할 필요 없이 쉽게 평가할 수 있다.