본 논문은 대규모 언어 모델(LLM)의 크기를 줄이면서 성능을 유지하는 문제를 해결하기 위해 Branch-Merge 증류 방법을 제안합니다. 이 방법은 지식 증류를 두 단계로 나누어 수행합니다. 첫 번째 단계인 Branch Phase에서는 대규모 교사 모델의 지식을 도메인별 지도 미세 조정을 통해 특화된 학생 모델로 선택적으로 증류합니다. 두 번째 단계인 Merge Phase에서는 이러한 학생 모델들을 병합하여 도메인 간 지식 전달을 가능하게 하고 일반화 성능을 향상시킵니다. DeepSeek-R1을 교사 모델, DeepSeek-R1-Distill-Qwen-32B를 학생 모델로 사용하여 실험한 결과, 병합된 모델인 TinyR1-32B-Preview는 여러 벤치마크(수학, 코딩, 과학)에서 DeepSeek-R1-Distill-Qwen-32B보다 성능이 우수하며, AIME 2024에서는 DeepSeek-R1과 거의 동등한 성능을 보였습니다. 이는 계산 비용과 시간을 줄이면서 작고 고성능의 LLM을 생성하는 확장 가능한 솔루션을 제공합니다.
시사점, 한계점
•
시사점:
◦
기존의 모델 증류 및 전이 학습 방법의 한계를 극복하는 새로운 증류 방법(Branch-Merge) 제시
◦
도메인별 지도 미세 조정 및 모델 병합을 통해 LLM의 크기 축소와 성능 향상을 동시에 달성