본 논문은 대규모 추론 모델(LRM)의 안전 정렬에 대한 연구를 다룹니다. 기존의 대규모 언어 모델(LLM)에 대한 안전 정렬 연구와 달리, 향상된 추론 능력을 갖춘 LRM에 초점을 맞추고 있습니다. 간소화된 안전 정렬 파이프라인을 제시하고 다양한 LRM을 평가하여 두 가지 주요 결과를 도출합니다. 첫째, LRM에 안전 정렬을 적용하여 안전성을 회복할 수 있음을, 둘째, 안전 정렬이 LRM의 추론 능력 저하를 초래함을 보여줍니다. 이러한 상반되는 결과를 '안전세(Safety Tax)'라 명명하고, 안전 정렬을 위한 대체 데이터셋으로 활용 가능한 DirectRefusal 데이터셋을 함께 공개합니다.