본 논문은 실제 응용 분야에서 추론 성능과 추론 속도 간의 균형을 맞추기 위해 지식 증류 기술을 활용하여 Qwen 모델에서 초기화된 DistilQwen 모델 제품군을 확장합니다. 산업 요구 사항을 충족하도록 설계된 네 가지 모델 시리즈를 소개하며, 여기에는 고정밀 추론에 최적화된 slow-thinking 모델, 다양한 시나리오에서 효율성을 극대화하기 위해 입력 작업에 따라 추론 전략을 동적으로 조정하는 두 가지 adaptive-thinking 모델 시리즈, 그리고 증류된 지식을 사용하여 추론 모델의 추가 강화 학습을 가능하게 하는 distilled reward 모델이 포함됩니다. 다양한 벤치마크를 통해 이러한 모델의 높은 추론 효율성과 강력한 추론 성능, 그리고 증류된 보상 모델의 실용적 유용성을 입증합니다. 또한, Alibaba Cloud PAI 플랫폼에서 확장 가능한 훈련 및 추론 기능을 제공하여 산업 실무자를 지원합니다.