Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs
Created by
Haebom
Category
Empty
저자
Anshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee
개요
본 논문은 대규모 언어 모델에서 지식 증류를 효율적으로 수행하는 방법을 제시합니다. 기존의 Top-K 확률 캐싱과 같은 간단한 스파스 지식 증류 방법은 교사 모델의 확률 분포를 편향되게 추정하여 성능 저하 및 보정 문제를 야기한다는 것을 밝혔습니다. 이에 연구진은 중요도 샘플링 기반의 새로운 방법인 Random Sampling Knowledge Distillation을 제안합니다. 이 방법은 교사 모델의 확률 분포를 편향 없이 추정하고, 기대값에서 기울기를 보존하며, 상당히 스파스한 로그값만 저장하면 됩니다. 3억에서 30억 매개변수 규모의 다양한 모델에서, 제안된 방법은 교차 엔트로피 기반 학습과 비교하여 10% 미만의 추가 비용으로 더 빠른 학습을 가능하게 하면서, 전체 지식 증류와 비교하여 경쟁력 있는 성능을 유지함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
스파스 지식 증류를 통해 대규모 언어 모델의 사전 훈련을 효율적으로 수행할 수 있는 새로운 방법을 제시합니다.
◦
기존 방법의 한계점을 명확히 밝히고, 이를 개선하는 중요도 샘플링 기반의 Random Sampling Knowledge Distillation 방법의 우수성을 실험적으로 증명합니다.