본 논문은 대규모 언어 모델(LLM)의 안전성 미세조정(safety fine-tuning)의 강건성에 대한 연구를 다룹니다. 모델 활성화에 가우시안 노이즈를 주입하여 안전성 미세조정의 강건성을 조사한 결과, 가우시안 노이즈가 유해 출력 비율을 최대 27%까지 증가시키며(p < 0.001), 더 깊은 안전성 미세조정이 추가적인 보호 효과를 제공하지 않고, 사고 과정 추론(chain-of-thought reasoning)은 대부분 온전하게 유지됨을 보였습니다. 이는 현재의 안전 정렬 기술의 취약성을 드러내고, 더 강건한 AI 안전 시스템 개발을 위한 추론 기반 및 강화 학습 접근 방식의 잠재력을 강조합니다.