Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting

Created by
  • Haebom

저자

Lei Tian, Xiaomin Li, Liqian Ma, Hao Yin, Zirui Zheng, Hefei Huang, Taiqing Li, Huchuan Lu, Xu Jia

개요

본 논문은 3D 의미론적 이해를 위한 새로운 프레임워크인 CCL-LGS를 제안합니다. 기존의 2D prior 기반 방법들이 occlusion, image blur, view-dependent variations로 인한 cross-view semantic inconsistencies 문제를 겪는다는 점에 착안하여, 다중 뷰 의미론적 단서를 통합하여 view-consistent semantic supervision을 강화하는 방법을 제시합니다. 구체적으로, zero-shot tracker를 이용하여 SAM-generated 2D masks를 정렬하고, CLIP을 이용하여 robust semantic encodings을 추출하며, Contrastive Codebook Learning (CCL) 모듈을 통해 intra-class compactness와 inter-class distinctiveness를 강화하여 차별적인 의미론적 특징을 추출합니다. 기존 방법들과 달리 불완전한 mask에 CLIP을 직접 적용하는 대신, semantic conflicts를 명시적으로 해결하면서 category discriminability를 유지합니다. 실험 결과, CCL-LGS가 기존 최첨단 방법들을 능가함을 보여줍니다.

시사점, 한계점

시사점:
다중 뷰 의미론적 단서를 통합하여 3D 의미론적 이해의 정확도를 향상시킬 수 있는 새로운 프레임워크 제시.
Zero-shot tracker와 CLIP, CCL 모듈을 활용하여 cross-view semantic inconsistencies 문제를 효과적으로 해결.
기존 방법보다 우수한 성능을 실험적으로 검증.
한계점:
제안된 방법의 계산 비용 및 복잡도에 대한 분석이 부족.
다양한 환경 및 데이터셋에 대한 일반화 성능에 대한 추가적인 실험 필요.
SAM과 CLIP 등 다른 모델의 성능에 의존적인 부분 존재.
👍