본 논문은 지식 증류(knowledge distillation)에서 서로 다른 지식 구성 요소의 분리를 강조하는 최근 연구 동향을 바탕으로, 기존 방법들이 목표 지향적 경사와 증류 경사를 분리하기 위해 모멘텀 메커니즘을 활용하지만, 목표 클래스와 비목표 클래스 지식 흐름 간의 고유한 충돌을 간과하고, 비목표 클래스의 낮은 신뢰도의 어두운 지식(dark knowledge)이 노이즈 신호를 도입하여 효과적인 지식 전달을 방해하는 문제점을 지적합니다. 이를 해결하기 위해, 이중 수준 분리(dual-level decoupling)와 적응적 잡음 제거(adaptive denoising)를 통합한 새로운 훈련 프레임워크인 DeepKD를 제안합니다. DeepKD는 이론적 분석을 통해 목표 지향적 경사(TOG), 목표 클래스 경사(TCG), 비목표 클래스 경사(NCG)에 대한 독립적인 모멘텀 업데이터를 설계하여 상호 간섭을 방지하고, 동적 상위 k 마스크(DTM) 메커니즘을 도입하여 커리큘럼 학습 원칙에 따라 훈련 과정에서 점진적으로 더 많은 비목표 클래스를 통합하여 저신뢰도 로짓을 필터링함으로써 어두운 지식을 효과적으로 정제합니다. CIFAR-100, ImageNet, MS-COCO에 대한 광범위한 실험을 통해 DeepKD의 효과를 입증하고, 코드는 깃허브에 공개합니다.