본 논문은 대규모 추론 모델(LRM)의 추론 능력을 소규모 모델에 증류하는 방법을 제시합니다. 기존의 LRM이 생성한 긴 Chain-of-Thought(CoT) 데이터를 사용하는 증류 방법은 소규모 모델의 학습에 어려움을 야기하고 편향을 유발하는 문제점을 가지고 있습니다. 이를 해결하기 위해, 본 논문은 Monte Carlo Tree Search(MCTS)를 이용하여 트리 기반의 CoT 데이터를 새롭게 생성하고, Thoughts Length Balance, Fine-grained DPO, Joint Post-training Objective 등의 CoT-aware 접근법을 통해 지도 학습 미세조정(SFT) 및 강화 학습(RL)을 개선하는 방법을 제안합니다.
시사점, 한계점
•
시사점:
◦
MCTS 기반 트리형 CoT 데이터 생성을 통해 소규모 모델의 추론 능력 향상에 효과적인 증류 방법을 제시.