Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SLAG: Scalable Language-Augmented Gaussian Splatting

Created by
  • Haebom

저자

Laszlo Szilagyi, Francis Engelmann, Jeannette Bohg

개요

SLAG (Scalable Language-Augmented Gaussian splatting)은 대규모 로보틱스 애플리케이션(예: 수색 및 구조, 스마트 도시, 광업)을 위한 언어 증강 장면 표현을 위한 다중 GPU 프레임워크입니다. 시간에 민감하고 데이터 집약적인 이러한 시나리오에서 제한된 계산 자원을 가진 로봇에 배포하는 것은 어려운 과제입니다. SLAG는 SAM과 CLIP을 사용하여 2D 시각-언어 모델 특징을 3D 장면에 통합하며, 가우시안 당 언어 임베딩을 계산하기 위한 손실 함수를 사용하지 않고 3D 가우시안 장면 매개변수를 통해 정규화된 가중 평균으로 임베딩을 도출하여 고도로 병렬화된 장면 인코딩을 가능하게 합니다. 또한 효율적인 임베딩 저장 및 검색을 위한 벡터 데이터베이스를 도입합니다. ScanNet과 LERF 데이터셋에서 16-GPU 설정에서 OpenGaussian에 비해 18배의 속도 향상을 달성하면서 임베딩 품질을 유지합니다.

시사점, 한계점

시사점:
대규모 장면에 대한 빠르고 확장 가능한 언어 증강 장면 표현을 제공합니다.
손실 함수 없이 고도로 병렬화된 장면 인코딩을 가능하게 합니다.
효율적인 임베딩 저장 및 검색을 위한 벡터 데이터베이스를 활용합니다.
기존 방법 대비 18배의 속도 향상을 보입니다.
한계점:
특정 하드웨어(다중 GPU) 환경에 의존적일 수 있습니다.
사용된 2D 시각-언어 모델(SAM, CLIP)의 성능에 의존적입니다.
다양한 로봇 플랫폼 및 환경에서의 일반화 성능에 대한 추가적인 평가가 필요합니다.
벡터 데이터베이스의 크기 및 관리에 대한 고려가 필요합니다.
👍