Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs
Created by
Haebom
저자
Anshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee
개요
본 논문은 대규모 언어 모델에서 지식 증류를 효율적으로 수행하는 방법을 제시합니다. 교사 모델의 출력 로짓을 미리 계산하여 캐싱하는 지식 증류는 비용 효율적이지만, 사전 훈련에 적용하는 것은 아직 미개척 분야입니다. 기존의 Top-K 확률 캐싱과 같은 희소 지식 증류 방법은 교사 확률 분포의 편향된 추정치를 학생 모델에 제공하여 성능 저하 및 보정 문제를 야기한다는 것을 밝혔습니다. 이에 본 논문에서는 중요도 샘플링 기반의 새로운 방법인 'Random Sampling Knowledge Distillation'을 제안합니다. 이 방법은 편향되지 않은 추정치를 제공하고, 기대치에서 기울기를 보존하며, 훨씬 더 희소한 로짓만 저장하면 됩니다. 3억에서 30억 매개변수 규모의 다양한 모델에서 교차 엔트로피 기반 훈련과 비교하여 10% 미만의 오버헤드로 학생 모델의 훈련 속도를 높이고, 전체 지식 증류와 비교하여 경쟁력 있는 성능을 유지합니다.
시사점, 한계점
•
시사점:
◦
중요도 샘플링 기반의 희소 지식 증류 방법인 'Random Sampling Knowledge Distillation'을 제안하여 대규모 언어 모델의 사전 훈련 속도를 향상시켰습니다.
◦
기존 Top-K 방법의 한계점을 밝히고, 편향되지 않은 추정치를 제공하는 방법을 제시했습니다.
◦
3억에서 30억 매개변수 규모의 다양한 모델에서 효율성과 성능을 검증했습니다.
◦
전체 지식 증류에 비해 경쟁력 있는 성능을 유지하면서도 훈련 속도를 향상시켰습니다.
•
한계점:
◦
제안된 방법의 효과는 특정 모델 크기 범위(3억~30억 매개변수)에서 검증되었으며, 다른 크기의 모델에서는 성능이 다를 수 있습니다.
◦
실험은 특정 데이터셋에 국한되어 있으며, 다른 데이터셋에서의 일반화 성능은 추가 연구가 필요합니다.
◦
'Random Sampling Knowledge Distillation' 방법의 최적 하이퍼파라미터 설정에 대한 추가적인 연구가 필요할 수 있습니다.