지식 증류(KD)는 대규모 언어 모델(LLM)을 더 작고 효율적인 학생 모델로 압축하는 데 핵심적인 기술입니다. 그러나 기존의 KD 방식은 교사의 신뢰도에 관계없이 모든 토큰에 균일하게 증류 손실을 적용합니다. 이러한 무차별적인 모방은 학생이 불확실하거나 엔트로피가 높은 교사의 예측으로부터 학습하도록 강요하여 노이즈를 유발할 수 있으며, 특히 교사가 훨씬 크고 강력할 경우 학생의 성능을 저하시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 추론적 디코딩의 "제안 및 검증" 패러다임에서 영감을 받은 동적 토큰 수준 게이팅 메커니즘을 도입하는 새로운 플러그 앤 플레이 프레임워크인 Speculative Knowledge Distillation(SpecKD)을 제안합니다. 각 단계에서 학생의 토큰 제안은 교사의 분포에 대해 검증되며, 증류 손실은 "수락된" 토큰에만 선택적으로 적용되고 "거부된" 토큰은 마스킹됩니다. 다양한 텍스트 생성 작업에 대한 광범위한 실험을 통해 SpecKD가 강력한 KD 기반 모델보다 일관되고 유의미하게 우수한 성능을 보이며, 보다 안정적인 훈련과 더 강력한 학생 모델을 유도하고, 최첨단 결과를 달성하는 것을 보여줍니다.