대규모 교사 모델로부터 소규모 학생 모델로 지식을 전달하는 지식 증류(KD)에서, 본 논문은 대조 학습을 활용하여 교사 모델의 구조적 관계까지 고려하는 새로운 지식 증류 방법인 DCD(Discriminative and Consistent Distillation)를 제안합니다. DCD는 대조 손실과 일관성 정규화를 사용하여 교사와 학생 표현의 분포 차이를 최소화합니다. 기존 대조 학습의 고정된 하이퍼파라미터 대신 학습 가능한 온도 및 바이어스 매개변수를 도입하여 두 목표 간의 균형을 조절합니다. CIFAR-100 및 ImageNet ILSVRC-2012에 대한 광범위한 실험을 통해 DCD가 최첨단 성능을 달성하고, 학생 모델이 교사 모델의 정확도를 능가하는 경우도 있음을 보여줍니다. 또한, DCD의 학습된 표현은 Tiny ImageNet 및 STL-10으로 전이될 때 우수한 교차 데이터셋 일반화 성능을 보입니다.