3D 장면 이해는 실체화된 AI 및 로봇 공학의 핵심이며, 상호 작용과 탐색을 위한 신뢰할 수 있는 인식을 지원합니다. 본 논문은 비전-언어 모델(VLMs)을 통해 생성된 2D 클래스 불가지론 마스크에 임베딩 벡터를 할당하고 이를 3D로 투영하여 제로샷, 개방형 어휘 3D 의미 맵핑을 수행합니다. 이 연구는 SemanticSAM과 점진적인 세분성 개선을 활용하여 보다 정확하고 많은 객체 수준 마스크를 생성하여 마스크 생성 모델에서 흔히 관찰되는 과분할 문제를 완화하고, 컨텍스트 인식 CLIP 인코딩 전략을 통해 각 마스크의 여러 컨텍스트 뷰를 통합하여 시각적 컨텍스트를 풍부하게 제공합니다. 다양한 3D 장면 이해 작업에서 제안된 접근 방식의 효과를 평가하며, 기존 방법보다 상당한 개선을 보여줍니다.