VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

작성자

Haebom

카테고리

Empty

저자

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

개요

VLN-Zero는 미지의 환경에서 빠른 적응을 가능하게 하는 새로운 비전-언어 탐색 프레임워크입니다. 기존의 방식들이 완전한 탐색이나 일반화되지 않는 엄격한 탐색 정책에 의존하는 것과 달리, VLN-Zero는 두 단계로 구성됩니다. 첫 번째 단계인 탐색 단계에서는 구조화된 프롬프트를 사용하여 비전-언어 모델(VLM) 기반 검색을 통해 정보가 풍부하고 다양한 경로를 찾아 간결한 시각적 장면 그래프를 생성합니다. 두 번째 단계인 배포 단계에서는 신경 기호 계획자가 장면 그래프와 환경 관찰을 통해 실행 가능한 계획을 생성하고, 캐시 지원 실행 모듈은 이전에 계산된 작업 위치 경로를 재사용하여 적응 속도를 높입니다. 빠른 탐색, 기호 추론, 캐시 지원 실행을 결합하여 계산 비효율성과 일반화 부족 문제를 극복하고, 미지의 환경에서 강력하고 확장 가능한 의사 결정을 가능하게 합니다. VLN-Zero는 최첨단 제로샷 모델보다 2배 높은 성공률을 달성하고, 대부분의 미세 조정된 기준 모델보다 성능이 우수하며, 다양한 환경에서 평균적으로 최첨단 모델보다 절반의 시간에 55% 적은 VLM 호출로 목표 위치에 도달합니다. 코드, 데이터셋 및 비디오는 https://vln-zero.github.io/ 에서 확인할 수 있습니다.

VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

By combining rapid exploration, symbolic reasoning, and cache-enabled execution, VLN-Zero overcomes the computational inefficiency and poor generalization of prior vision-language navigation methods, enabling robust and scalable decision-making in unseen environments.

vln-zero.github.io