Bài báo này phân tích những hạn chế của phương pháp chưng cất tương phản đa mô thức (CMCR) trong học biểu diễn 3D và đề xuất một khuôn khổ mới, CMCR, để cải thiện nó. Để giải quyết vấn đề các phương pháp hiện có chỉ tập trung vào các đặc điểm chung của mô hình mà bỏ qua các đặc điểm riêng của mô hình, chúng tôi giới thiệu mô hình hóa ảnh có mặt nạ và các tác vụ ước tính mức độ chiếm dụng để tạo ra quá trình học đặc điểm riêng của mô hình toàn diện hơn. Hơn nữa, chúng tôi đề xuất một bộ mã thống nhất đa mô thức học các không gian nhúng chung trên nhiều mô hình khác nhau, và mô hình hóa ảnh mặt nạ được tăng cường hình học để nâng cao hiệu suất học biểu diễn 3D. Kết quả thực nghiệm chứng minh rằng CMCR vượt trội hơn các phương pháp chưng cất tương phản ảnh-LiDAR hiện có trong các tác vụ hạ nguồn.