추론 모델의 유해한 답변 생성 문제를 해결하기 위해, 적대적인 탈옥 프롬프트에 대응하는 안전성 확보를 위한 적응형 안전 정렬 프레임워크인 SGASA(Synthesized Guideline-based Adaptive Safety Alignment)를 제안한다. SGASA는 모델 자체 생성 안전 가이드라인을 활용하여, 유해한 적대적 프롬프트에 대한 견고함을 강화하는 동시에 무해한 요청에 대한 불필요한 거부를 최소화한다. SGASA는 안전 가이드라인 및 증강 프롬프트 생성(Data Pre-synthesis)과, SFT(Supervised Fine-tuning) 및 DPO(Direct Preference Optimization)를 활용한 안전 가이드라인 내재화(Alignment Fine-tuning)의 두 단계로 구성된다. 여러 데이터셋에 대한 광범위한 실험을 통해 SGASA의 안전성 향상 효과를 입증했다.