본 논문은 3D 시맨틱 이해를 위한 새로운 프레임워크인 CCL-LGS를 제안합니다. 기존의 2D prior 기반 방법들이 occlusion, 이미지 blur, view-dependent variations으로 인한 cross-view semantic inconsistencies 문제를 겪는다는 점을 지적하며, 이를 해결하기 위해 multi-view semantic cues를 통합하여 view-consistent semantic supervision을 강화합니다. 구체적으로, zero-shot tracker를 이용해 SAM-generated 2D masks를 정렬하고 CLIP을 이용해 robust semantic encodings을 추출하며, Contrastive Codebook Learning (CCL) module을 통해 intra-class compactness와 inter-class distinctiveness를 강화하여 discriminative semantic features를 얻습니다. 실험 결과, CCL-LGS는 기존 최첨단 방법들을 능가하는 성능을 보입니다.