Sign In

Towards Widening The Distillation Bottleneck for Reasoning Models

Created by
  • Haebom
Category
Empty

저자

Huifeng Yin, Yu Zhao, Minghao Wu, Xuanfan Ni, Bo Zeng, Hao Wang, Tianqi Shi, Liangying Shao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang

개요

본 논문은 대규모 추론 모델(LRM)의 추론 능력을 소규모 모델에 증류하는 방법을 제시합니다. 기존의 LRM이 생성한 긴 Chain-of-Thought(CoT) 데이터를 사용하는 증류 방법은 소규모 모델의 학습에 어려움을 야기하고 편향을 유발하는 문제점을 가지고 있습니다. 이를 해결하기 위해, 본 논문은 Monte Carlo Tree Search(MCTS)를 이용하여 트리 기반의 CoT 데이터를 새롭게 생성하고, Thoughts Length Balance, Fine-grained DPO, Joint Post-training Objective 등의 CoT-aware 접근법을 통해 지도 학습 미세조정(SFT) 및 강화 학습(RL)을 개선하는 방법을 제안합니다.

시사점, 한계점

시사점:
MCTS 기반 트리형 CoT 데이터 생성을 통해 소규모 모델의 추론 능력 향상에 효과적인 증류 방법을 제시.
CoT-aware 접근법들을 통해 SFT 및 RL의 성능 개선.
긴 CoT 데이터 학습의 어려움 및 편향 문제 해결에 대한 새로운 접근법 제시.
한계점:
MCTS를 이용한 CoT 데이터 생성의 계산 비용.
제안된 방법의 일반성 및 다양한 문제 유형에 대한 적용 가능성 검증 필요.
새롭게 생성된 트리 기반 CoT 데이터의 질적 평가 및 한계.
👍