Este artículo analiza las limitaciones de la destilación contrastiva intermodal (CMCR) para el aprendizaje de la representación 3D y propone un nuevo marco, CMCR, para mejorarla. Para abordar el problema de que los métodos existentes se centran únicamente en las características modales compartidas, ignorando las características modales específicas, introducimos tareas de modelado de imágenes enmascaradas y estimación de ocupación para inducir un aprendizaje más completo de las características modales específicas. Además, proponemos un libro de códigos unificado multimodal que aprende espacios de incrustación compartidos en diversas modalidades, y un modelado de imágenes enmascaradas mejorado geométricamente para optimizar el rendimiento del aprendizaje de la representación 3D. Los resultados experimentales demuestran que la CMCR supera a los métodos existentes de destilación contrastiva image-LiDAR en tareas posteriores.