Dynamic Temperature Scheduler for Knowledge Distillation
Created by
Haebom
Category
Empty
저자
Sibgat Ul Islam, Jawad Ibn Ahad, Fuad Rahman, Mohammad Ruhul Amin, Nabeel Mohammed, Shafin Rahman
개요
지식 증류(KD)는 사전 훈련된 큰 교사 모델을 사용하여 더 작은 학생 모델을 훈련합니다. 온도 조절은 출력 확률의 부드러움을 제어하는 핵심 하이퍼파라미터입니다. 본 논문에서는 훈련 초기에 더 부드러운 확률, 후반부에 더 날카로운 확률이 학생에게 유리하다는 점을 지적합니다. 저자는 교사와 학생 간의 교차 엔트로피 손실 차이에 따라 온도를 동적으로 조절하는 동적 온도 스케줄러(DTS)를 소개합니다. DTS는 기존 KD 프레임워크와 쉽게 통합되며, 비전 및 NLP 작업에서 정적 온도 기준선보다 일관되게 우수한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
동적 온도 조절 기법인 DTS는 교사와 학생 간의 분포 차이에 기반하여 온도를 조절하는 최초의 방법입니다.