본 논문은 대규모 언어 모델(LLM)의 안전성 향상에 관한 연구이다. 기존의 유해 요청 거부 방식은 유익한 요청까지 거부하는 오류(false refusal)를 발생시키는 문제점을 지닌다. 본 연구는 응답 생성 전 안전성 반추(safety reflection) 과정을 도입하여 이러한 문제를 해결하고자 한다. Think-Before-Refusal (TBR)이라는 새로운 기법을 제시하며, 안전성 반추를 통합한 안전 인식 지시 fine-tuning을 수행한다. 15개의 사전 훈련된 모델을 이용한 실험 결과, 안전성 반추를 통해 fine-tuning된 모델은 오류 거부를 현저히 줄이면서 안전성과 전반적인 성능을 유지함을 보여준다.