본 논문은 대규모 언어 모델(LLM)의 추론 능력을 소형 모델에 전달하는 과정에서 발견된 "소형 모델 학습 능력 격차" 현상을 다룬다. 즉, 소형 모델(30억 이하 파라미터)은 긴 CoT(Chain-of-Thought) 추론이나 대형 모델로부터의 증류(distillation)를 통해 일관된 성능 향상을 얻지 못하며, 오히려 더 짧고 간단한 추론 체인에 미세 조정될 때 더 나은 성능을 보인다. 이를 해결하기 위해, 저자들은 긴 CoT 예시와 짧은 CoT 예시를 결합하거나 대형 및 소형 모델의 추론을 모두 활용하는 "Mix Distillation" 전략을 제안한다. 실험 결과, Mix Distillation은 기존 방식보다 소형 모델의 추론 성능을 크게 향상시켰다.