지식 증류(KD)에서 학생 네트워크의 성능 향상을 위해 교사 네트워크로부터 지식을 점진적으로 학습하도록 하는 기존 방법들은 온도를 동적으로 조절하여 학습 단계에 따른 다양한 학습 난이도에 적응하도록 합니다. 하지만 온도 조절 시 현재 학습 단계의 즉각적인 이점만 고려하고 미래의 효과는 고려하지 못하는 한계가 있습니다. 본 논문에서는 온도 조절을 순차적 의사결정 과제로 공식화하고 강화 학습 기반 방법인 RLKD를 제안합니다. 특히, 에이전트가 더욱 정보에 입각한 행동(즉, 인스턴스 온도 조절)을 할 수 있도록 새로운 상태 표현을 설계하고, KD 설정으로 인한 지연된 보상 문제를 해결하기 위해 인스턴스 보상 보정 방법을 탐구하며, 효율적인 탐색 전략을 고안하여 에이전트가 유용한 인스턴스 온도 조절 정책을 더 효율적으로 학습하도록 합니다. 제안된 프레임워크는 다양한 KD 방법에 쉽게 적용 가능하며, 이미지 분류 및 객체 탐지 작업에서 효과를 검증했습니다.