Training-Trajectory-Aware Token Selection

작성자

Haebom

카테고리

Empty

저자

Zhanming Shen, Jiaqi Hu, Zeyu Qin, Hao Chen, Wentao Ye, Zenan Huang, Yihong Zhuang, Guoshan Lu, Junlin Zhou, Junbo Zhao

💡 개요

본 논문은 추론 능력이 뛰어난 학생 모델에 대한 효율적인 증류 과정에서 발생하는 성능 저하 문제를 해결하기 위해 훈련 궤적을 고려한 토큰 선택(T3S) 방법론을 제안합니다. T3S는 모델이 특정 병목 지점에서 학습이 어려운 토큰들의 최적화 경로를 확보하도록 훈련 목표를 토큰 수준에서 재구성하여 성능 향상을 도모합니다. 이를 통해 적은 양의 데이터로도 추론 성능을 크게 향상시키고 기존 최첨단 모델을 능가하는 성과를 달성했습니다.

🔑 시사점 및 한계

•

기존의 지속적인 증류 방식이 성능 저하를 초래하는 근본적인 이유가 학습 대상 토큰 간의 상반된 최적화 경로에 있음을 규명했습니다.

•

제안된 T3S 방법론이 모델의 훈련 궤적을 활용하여 학습 병목 현상을 극복하고, 특히 추론 능력이 중요한 AR 및 dLLM 환경에서 효율적으로 성능을 향상시킬 수 있음을 입증했습니다.

•

T3S는 적은 데이터로도 상당한 성능 향상을 가져오며, 특정 규모의 모델에서 최첨단 성능을 달성하는 가능성을 보여줍니다.

•

T3S의 효과가 모델 아키텍처나 특정 데이터셋에 얼마나 일반화될 수 있는지, 그리고 다른 증류 기법과의 조합을 통해 추가적인 이점을 얻을 수 있는지에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage