Sign In

TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation

Created by
  • Haebom
Category
Empty

저자

Lin Sun, Guangxiang Zhao, Xiaoqi Jian, Yuhan Wu, Weihong Lin, Yongfu Zhu, Change Jia, Linglin Zhang, Jinzhu Wu, Junfeng Ran, Sai-er Hu, Zihan Jiang, Junting Zhou, Wenrui Liu, Bin Cui, Tong Yang, Xiangzheng Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 크기를 줄이면서 성능을 유지하는 문제를 해결하기 위해 Branch-Merge 증류 방법을 제안합니다. 이 방법은 지식 증류를 두 단계로 나누어 수행합니다. 첫 번째 단계인 Branch Phase에서는 대규모 교사 모델의 지식을 도메인별 지도 미세 조정을 통해 특화된 학생 모델로 선택적으로 증류합니다. 두 번째 단계인 Merge Phase에서는 이러한 학생 모델들을 병합하여 도메인 간 지식 전달을 가능하게 하고 일반화 성능을 향상시킵니다. DeepSeek-R1을 교사 모델, DeepSeek-R1-Distill-Qwen-32B를 학생 모델로 사용하여 실험한 결과, 병합된 모델인 TinyR1-32B-Preview는 여러 벤치마크(수학, 코딩, 과학)에서 DeepSeek-R1-Distill-Qwen-32B보다 성능이 우수하며, AIME 2024에서는 DeepSeek-R1과 거의 동등한 성능을 보였습니다. 이는 계산 비용과 시간을 줄이면서 작고 고성능의 LLM을 생성하는 확장 가능한 솔루션을 제공합니다.

시사점, 한계점

시사점:
기존의 모델 증류 및 전이 학습 방법의 한계를 극복하는 새로운 증류 방법(Branch-Merge) 제시
도메인별 지도 미세 조정 및 모델 병합을 통해 LLM의 크기 축소와 성능 향상을 동시에 달성
여러 벤치마크에서 기존 방법보다 우수한 성능을 입증
계산 비용과 시간을 절약하는 효율적인 LLM 생성 방법 제공
한계점:
제시된 방법의 효과가 특정 교사-학생 모델 조합에 국한될 가능성 존재
다양한 도메인과 규모의 LLM에 대한 일반화 성능 검증 필요
Branch-Merge 방법의 하이퍼파라미터 최적화에 대한 상세한 분석 부족
AIME 2024 외 다른 벤치마크에서의 추가적인 성능 평가 필요
👍