추론 모델은 복잡한 추론 작업에서 뛰어난 능력을 보여주지만, 적대적인 탈옥 프롬프트에 대한 안전성을 확보하는 것은 여전히 중요한 과제입니다. 이러한 프롬프트는 은밀하고 기만적인 특성으로 인해 내장된 안전 메커니즘을 쉽게 우회하고 유해한 콘텐츠를 생성할 수 있습니다. 본 논문은 모델이 적대적 입력에 대응하여 방어 능력을 자율적으로 강화할 수 있도록 하는 적응형 안전 정렬 접근 방식을 제시합니다. Synthesized Guideline-based Adaptive Safety Alignment (SGASA) 프레임워크는 모델 생성 안전 가이드라인을 내부화하여 유해한 적대적 프롬프트에 대한 견고성을 강화하고, 무해한 요청에 대한 불필요한 거부를 최소화합니다. SGASA는 안전 가이드라인 및 증강 프롬프트를 생성하는 데이터 사전 합성 단계와, Supervised Fine-tuning (SFT) 및 Direct Preference Optimization (DPO)을 활용하여 이러한 가이드라인을 모델에 포함시키는 정렬 미세 조정 단계로 구성됩니다. 여러 데이터 세트에 대한 광범위한 실험을 통해 SGASA가 모델 안전성을 크게 향상시키고, 적응성과 확장성을 입증했습니다.