UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

작성자

Haebom

카테고리

Empty

저자

Yiqiao Jin, Yiyang Wang, Lucheng Fu, Yijia Xiao, Yinyi Luo, Haoxin Liu, B. Aditya Prakash, Josiah Hester, Jindong Wang, Srijan Kumar

💡 개요

본 논문은 대규모 언어 모델(LLM)을 외부의 더 강력한 모델 없이 적응시키는 유망한 방법인 자기 증류(Self-Distillation, SD)를 위한 통합 프레임워크인 UniSD를 제안한다. UniSD는 supervision의 신뢰성, 표현 일치, 훈련 안정성을 개선하기 위해 다중 교사 동의, EMA 교사 안정화, 토큰 수준 대조 학습, 특징 매칭, 발산 클리핑 등 상호 보완적인 메커니즘을 통합한다. 이를 통해 LLM 적응의 효율성과 성능 향상을 달성한다.

🔑 시사점 및 한계

•

자기 증류는 외부의 더 강력한 교사 모델 없이도 LLM의 성능을 향상시킬 수 있는 실용적이고 제어 가능한 접근 방식이다.

•

UniSD 프레임워크는 SD의 다양한 구성 요소들의 효과와 상호작용을 체계적으로 분석하여 최적의 성능을 달성하는 통합 파이프라인을 구축하는 데 기여한다.

•

본 연구에서 제시된 각 구성 요소의 효과와 상호작용은 특정 작업 및 모델 아키텍처에 따라 달라질 수 있으며, 범용적인 적용을 위한 추가적인 연구가 필요하다.

PDF 보기

Made with Slashpage