본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 지식 증류(R1 distillation) 기법의 효율성을 높이는 연구에 관한 것이다. 기존의 지식 증류 방법이 다양한 모델에 적용 가능하다는 가정과 달리, 본 연구는 Qwen-QwQ와 같은 교사 모델로부터의 장거리 사고 연쇄(long CoT) 추론 능력 증류가 비상동 모델에서는 효과가 크게 저하됨을 밝혔다. 이러한 문제를 해결하기 위해, 본 논문은 장거리 사고 연쇄 추론의 구조와 패턴을 분석하고, 이를 개선하기 위한 DLCoT (Deconstructing Long Chain-of-Thought) 프레임워크를 제안한다. DLCoT는 복잡한 장거리 CoT 구조를 분해하고, 해결 불가능하거나 중복된 솔루션을 제거하며, 중간 오류 상태를 최적화하는 세 가지 단계로 구성된다. 이를 통해 모델 성능과 토큰 효율을 크게 향상시켜 고성능 LLM 개발을 용이하게 한다.