본 논문은 Mixture-of-Experts (MoE) 아키텍처를 사용하는 대규모 언어 모델(LLM)의 안전성에 대한 취약점을 분석하고, 이를 해결하기 위한 새로운 안전한 미세 조정 방법인 SafeMoE를 제안합니다. 특히, 유해한 입력에 대한 라우팅 결정이 미세 조정 후 크게 변동하여 유해한 미세 조정(HFT) 공격에 취약해지는 문제를 지적합니다. SafeMoE는 초기 안전 정렬된 모델의 라우팅 가중치와 미세 조정된 모델의 라우팅 가중치 간의 차이를 페널티로 부과하여 라우팅 변동을 완화함으로써 안전성을 유지합니다. 실험 결과는 SafeMoE가 HFT 공격을 효과적으로 완화하고, 작업 유틸리티를 거의 저하시키지 않으면서 기존 방어 방법보다 우수함을 보여줍니다.