본 논문은 대규모 언어 모델(LLM)의 자기 정렬 과정에 추론 능력과 전문가 혼합(MoE) 아키텍처를 효과적으로 통합하는 방법을 제시합니다. Mixture of insighTful Experts (MoTE)라는 새로운 프레임워크를 제안하며, 질문 분석, 답변 안내, 안전한 답변, 안전성 확인의 네 단계로 구성된 구조화된 추론 체인을 사용합니다. 아키텍처적으로는 단계별 라우팅을 사용하는 다중 LoRA 프레임워크를 채택하여 각 전문가를 특정 추론 단계에 할당하고, 균형 손실을 제거하여 안정적인 학습과 적응적인 추론 길이를 지원합니다. 실험 결과, MoTE는 모델의 안전성, 탈옥 저항성, 과도한 거부 능력을 크게 향상시키며, OpenAI의 최첨단 o1 모델과 비슷한 성능을 달성함을 보여줍니다. 특히, 작고 성능이 낮은 LLM(예: 7B 모델)에서도 효과적임을 입증합니다.