Các phương pháp phát hiện điểm chính không giám sát hiện có áp dụng các phép biến đổi nhân tạo, chẳng hạn như che giấu các phần đáng kể của hình ảnh hoặc sử dụng tái tạo hình ảnh gốc làm mục tiêu học tập. Tuy nhiên, các phương pháp này thiếu thông tin về độ sâu và thường phát hiện các điểm chính ở chế độ nền. Để giải quyết vấn đề này, chúng tôi đề xuất Distill-DKP, một khuôn khổ chưng cất kiến thức đa mô hình mới sử dụng bản đồ độ sâu và hình ảnh RGB để phát hiện các điểm chính theo cách tự giám sát. Trong quá trình huấn luyện, Distill-DKP trích xuất kiến thức ở cấp độ nhúng từ mô hình giáo viên theo độ sâu để hướng dẫn mô hình học sinh dựa trên hình ảnh, hạn chế suy luận vào mô hình học sinh. Kết quả thực nghiệm chứng minh rằng Distill-DKP vượt trội đáng kể so với các phương pháp học không giám sát hiện có, giảm lỗi L2 trung bình 47,15% trên tập dữ liệu Human3.6M, giảm lỗi trung bình 5,67% trên tập dữ liệu Taichi và cải thiện độ chính xác của điểm chính 1,3% trên tập dữ liệu DeepFashion. Một nghiên cứu cắt bỏ chi tiết chứng minh độ nhạy của chưng cất kiến thức trên các lớp khác nhau của mạng.