본 논문은 대규모 추론 모델(LRM)의 안전성 향상을 위한 새로운 방법인 SafeKey를 제안합니다. LRM은 복잡한 작업에서 뛰어난 성능을 보이지만, 유해한 질문과 적대적 공격에 취약합니다. 기존의 안전성 향상 방법인 SFT(Supervised Fine-Tuning)는 새로운 유형의 공격(jailbreak prompt)에 대한 일반화 성능이 부족하다는 한계를 가지고 있습니다. 본 논문에서는 모델의 생성 과정에서 안전한 응답으로 이어지는 '핵심 문장(key sentence)'을 식별하고, 이 핵심 문장에서 안전성을 활성화하는 두 가지 목표를 가진 SafeKey를 제시합니다. 첫째, 핵심 문장 이전의 내부 표현에서 안전 신호를 강화하는 Dual-Path Safety Head이고, 둘째, 질문 이해에 대한 모델의 주의력을 향상시키는 Query-Mask Modeling입니다. 실험 결과, SafeKey는 다양한 유형의 공격에 대한 안전성 일반화 성능을 크게 향상시키고 평균 유해성 비율을 9.6% 낮추는 것을 보여줍니다.