Les méthodes existantes de détection de points clés non supervisées appliquent des transformations artificielles, telles que le masquage de parties importantes de l'image ou l'utilisation de la reconstruction de l'image originale comme objectif d'apprentissage. Cependant, ces approches manquent d'informations de profondeur et détectent souvent des points clés en arrière-plan. Pour résoudre ce problème, nous proposons Distill-DKP, un nouveau cadre de distillation de connaissances intermodales qui utilise des cartes de profondeur et des images RVB pour détecter les points clés de manière auto-supervisée. Pendant l'apprentissage, Distill-DKP extrait les connaissances de niveau d'intégration d'un modèle d'enseignant basé sur la profondeur pour guider un modèle d'élève basé sur l'image, limitant l'inférence au modèle d'élève. Les résultats expérimentaux démontrent que Distill-DKP surpasse significativement les méthodes d'apprentissage non supervisées existantes, réduisant l'erreur L2 moyenne de 47,15 % sur l'ensemble de données Human3.6M, réduisant l'erreur moyenne de 5,67 % sur l'ensemble de données Taichi et améliorant la précision des points clés de 1,3 % sur l'ensemble de données DeepFashion. Une étude d'ablation détaillée démontre la sensibilité de la distillation de connaissances sur différentes couches du réseau.