Cet article propose CCL-LGS, un nouveau cadre pour la compréhension sémantique 3D. Pour répondre aux défis rencontrés par les méthodes 2D existantes basées sur les a priori, qui souffrent d'incohérences sémantiques entre vues dues à l'occlusion, au flou de l'image et aux variations dépendantes de la vue, nous proposons une méthode qui améliore la supervision sémantique cohérente entre les vues en intégrant des indices sémantiques multi-vues. Plus précisément, nous alignons les masques 2D générés par SAM à l'aide d'un tracker à zéro coup, extrayons des codages sémantiques robustes grâce à CLIP et extrayons des caractéristiques sémantiques discriminantes en améliorant la compacité intra-classe et la différenciation inter-classes grâce au module d'apprentissage par livre de codes contrastifs (CCL). Contrairement aux méthodes existantes, CCL-LGS résout explicitement les conflits sémantiques tout en préservant la discriminabilité des catégories, plutôt que d'appliquer directement CLIP aux masques incomplets. Les résultats expérimentaux démontrent que CCL-LGS surpasse les méthodes de pointe existantes.