Sign In

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Created by
  • Haebom
Category
Empty

저자

Haotian Zhou, Xiaole Wang, He Li, Fusheng Sun, Shengyu Guo, Guolei Qi, Jianghuan Xu, Huijing Zhao

개요

LagMemo는 시각 정보를 사용하여 지정된 목표로 이동하는 지능형 로봇을 위한 네비게이션 시스템입니다. LagMemo는 언어 3D Gaussian Splatting 메모리를 활용하여 다중 모달, 개방형 어휘 목표 쿼리 및 다중 목표 시각 내비게이션의 요구 사항을 해결합니다. 탐색하는 동안 LagMemo는 통합된 3D 언어 메모리를 구축합니다. 시스템은 들어오는 작업 목표를 사용하여 메모리를 쿼리하고 후보 목표 위치를 예측하며, 내비게이션 중에 목표를 동적으로 일치시키고 검증하기 위해 로컬 인식 기반 검증 메커니즘을 통합합니다. GOAT-Core라는 고품질 코어 분할을 사용하여 다중 모달 개방형 어휘 다중 목표 시각 내비게이션을 위해 LagMemo를 평가합니다. 실험 결과는 LagMemo의 메모리 모듈이 효과적인 다중 모달 개방형 어휘 목표 현지화를 가능하게 하고, 다중 목표 시각 내비게이션에서 최첨단 방법을 능가함을 보여줍니다.

시사점, 한계점

시사점:
다중 모달, 개방형 어휘 목표 쿼리 및 다중 목표 시각 내비게이션 문제를 해결하는 새로운 네비게이션 시스템 제안.
3D 언어 메모리를 활용하여 효율적인 목표 현지화 및 내비게이션 수행.
GOAT-Core 데이터셋을 구축하여 공정하고 엄격한 평가 수행.
다중 목표 시각 내비게이션에서 기존 방법들을 능가하는 성능 달성.
한계점:
논문 내용에 명시된 한계점은 없음.
👍