Cet article analyse les limites de la distillation contrastive intermodale (CMCR) pour l'apprentissage des représentations 3D et propose un nouveau cadre, la CMCR, pour l'améliorer. Pour remédier au problème que posent les méthodes existantes qui se concentrent uniquement sur les caractéristiques modales partagées, négligeant les caractéristiques spécifiques à chaque modalité, nous introduisons des tâches de modélisation d'images masquées et d'estimation d'occupation afin d'obtenir un apprentissage plus complet des caractéristiques spécifiques à chaque modalité. De plus, nous proposons un codebook unifié multimodal qui apprend les espaces d'intégration partagés entre différentes modalités, ainsi qu'une modélisation d'images masquées géométriquement améliorée pour améliorer les performances d'apprentissage des représentations 3D. Les résultats expérimentaux démontrent que la CMCR surpasse les méthodes de distillation contrastive image-LiDAR existantes dans les tâches en aval.