본 논문은 대규모 언어 모델(LLM)의 크기를 줄이면서 성능을 유지하는 문제에 대한 새로운 접근 방식인 Branch-Merge 증류 기법을 제시합니다. 기존의 모델 증류 및 전이 학습 방식의 한계를 극복하기 위해, Branch Phase에서는 도메인 특화된 지도 학습 미세 조정을 통해 대규모 교사 모델의 지식을 특화된 학생 모델로 선택적으로 증류하고, Merge Phase에서는 이러한 학생 모델들을 통합하여 도메인 간 지식 전이를 가능하게 하고 일반화 성능을 향상시킵니다. DeepSeek-R1을 교사 모델, DeepSeek-R1-Distill-Qwen-32B를 학생 모델로 사용하여 실험한 결과, 새롭게 생성된 TinyR1-32B-Preview 모델은 수학(+5.5점), 코딩(+4.4점), 과학(+2.9점) 등 여러 벤치마크에서 기존 학생 모델보다 성능이 우수하며, AIME 2024에서는 DeepSeek-R1과 거의 동등한 성능을 달성했습니다. 이 방법은 계산 비용과 시간을 줄이면서 작고 고성능의 LLM을 생성하기 위한 확장 가능한 솔루션을 제공합니다.
시사점, 한계점
•
시사점:
◦
기존 모델 증류 및 전이 학습의 한계를 극복하는 새로운 Branch-Merge 증류 기법 제시
◦
도메인 특화 학습과 도메인 간 지식 전이를 통한 성능 향상
◦
작고 고성능의 LLM 생성을 위한 효율적인 방법 제시
◦
수학, 코딩, 과학 등 다양한 분야에서 성능 향상 확인
•
한계점:
◦
제시된 방법의 일반화 성능에 대한 추가적인 검증 필요
◦
다양한 크기의 교사 모델과 학생 모델에 대한 실험 결과 추가 필요
◦
특정 교사 모델과 학생 모델에 대한 의존성 존재 가능성
◦
Branch-Merge distillation의 구체적인 파라미터 설정 및 최적화 전략에 대한 자세한 설명 부족 가능성