Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D

Created by
  • Haebom

저자

Mohamad Amin Mirzaei, Pantea Amoie, Ali Ekhterachian, Matin Mirzababaei, Babak Khalaj

개요

3D 장면 이해는 실체화된 AI 및 로봇 공학의 핵심이며, 상호 작용과 탐색을 위한 신뢰할 수 있는 인식을 지원합니다. 본 논문은 비전-언어 모델(VLMs)을 통해 생성된 2D 클래스 불가지론 마스크에 임베딩 벡터를 할당하고 이를 3D로 투영하여 제로샷, 개방형 어휘 3D 의미 맵핑을 수행합니다. 이 연구는 SemanticSAM과 점진적인 세분성 개선을 활용하여 보다 정확하고 많은 객체 수준 마스크를 생성하여 마스크 생성 모델에서 흔히 관찰되는 과분할 문제를 완화하고, 컨텍스트 인식 CLIP 인코딩 전략을 통해 각 마스크의 여러 컨텍스트 뷰를 통합하여 시각적 컨텍스트를 풍부하게 제공합니다. 다양한 3D 장면 이해 작업에서 제안된 접근 방식의 효과를 평가하며, 기존 방법보다 상당한 개선을 보여줍니다.

시사점, 한계점

시사점:
향상된 객체 수준 마스크 생성을 위한 SemanticSAM 및 점진적 세분성 개선 활용으로 과분할 문제 완화
컨텍스트 인식 CLIP 인코딩 전략을 통한 풍부한 시각적 컨텍스트 제공
3D 의미 분할 및 언어 쿼리 기반 객체 검색과 같은 여러 3D 장면 이해 작업에서 기존 방법 대비 상당한 성능 향상
한계점:
논문에 명시된 구체적인 한계점은 없음.
👍