기존의 비지도 키포인트 검출 방법들은 이미지의 상당 부분을 마스킹하거나 원본 이미지 재구성을 학습 목표로 사용하는 등 인위적인 변형을 적용합니다. 하지만 이러한 접근 방식은 이미지의 깊이 정보가 부족하고 종종 배경에 키포인트를 검출하는 문제가 있습니다. 본 논문에서는 이를 해결하기 위해 깊이 맵과 RGB 이미지를 활용하여 자기 지도 방식으로 키포인트를 검출하는 새로운 교차 모달 지식 증류 프레임워크인 Distill-DKP를 제안합니다. Distill-DKP는 학습 과정에서 깊이 기반 teacher 모델로부터 embedding-level 지식을 추출하여 이미지 기반 student 모델을 안내하며, student 모델에만 추론을 제한합니다. 실험 결과, Distill-DKP는 Human3.6M 데이터셋에서 평균 L2 오차를 47.15% 감소시키고, Taichi 데이터셋에서 평균 평균 오차를 5.67% 감소시키며, DeepFashion 데이터셋에서 키포인트 정확도를 1.3% 향상시키는 등 기존의 비지도 학습 방법들을 상당히 능가하는 성능을 보였습니다. 세부적인 ablation study를 통해 네트워크의 다양한 레이어에서 지식 증류의 민감도를 보여줍니다.