본 논문은 심층 학습 모델의 실시간 성능 저하 문제를 해결하기 위해 사용되는 지식 증류(Knowledge Distillation, KD) 기법에 대한 연구입니다. KD는 대규모 사전 훈련된 교사 네트워크와 경량 학생 네트워크의 출력을 일치시키는 과정과 학생 네트워크가 특정 하위 작업을 수행하도록 훈련하는 과정으로 구성됩니다. 기존 연구에서는 지식 증류 손실이 하위 작업 손실보다 중요할 때 KD가 가장 효과적이라고 보고하며, 이러한 중요도는 일반적으로 균형 매개변수로 조절됩니다. 본 논문은 손실이 감소하는 단순한 KD 설정에서 균형 매개변수를 동적으로 조정해야 하는 수학적 근거를 제시합니다.