haebom
Sign In

VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

작성자
  • Haebom
카테고리
Empty

저자

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

개요

VLN-Zero는 미지의 환경에서 빠른 적응을 가능하게 하는 새로운 비전-언어 탐색 프레임워크입니다. 기존의 방식들이 완전한 탐색이나 일반화되지 않는 엄격한 탐색 정책에 의존하는 것과 달리, VLN-Zero는 두 단계로 구성됩니다. 첫 번째 단계인 탐색 단계에서는 구조화된 프롬프트를 사용하여 비전-언어 모델(VLM) 기반 검색을 통해 정보가 풍부하고 다양한 경로를 찾아 간결한 시각적 장면 그래프를 생성합니다. 두 번째 단계인 배포 단계에서는 신경 기호 계획자가 장면 그래프와 환경 관찰을 통해 실행 가능한 계획을 생성하고, 캐시 지원 실행 모듈은 이전에 계산된 작업 위치 경로를 재사용하여 적응 속도를 높입니다. 빠른 탐색, 기호 추론, 캐시 지원 실행을 결합하여 계산 비효율성과 일반화 부족 문제를 극복하고, 미지의 환경에서 강력하고 확장 가능한 의사 결정을 가능하게 합니다. VLN-Zero는 최첨단 제로샷 모델보다 2배 높은 성공률을 달성하고, 대부분의 미세 조정된 기준 모델보다 성능이 우수하며, 다양한 환경에서 평균적으로 최첨단 모델보다 절반의 시간에 55% 적은 VLM 호출로 목표 위치에 도달합니다. 코드, 데이터셋 및 비디오는 https://vln-zero.github.io/ 에서 확인할 수 있습니다.
VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation
By combining rapid exploration, symbolic reasoning, and cache-enabled execution, VLN-Zero overcomes the computational inefficiency and poor generalization of prior vision-language navigation methods, enabling robust and scalable decision-making in unseen environments.
vln-zero.github.io

시사점, 한계점

•
시사점:
◦
미지의 환경에서의 효율적이고 일반화 가능한 비전-언어 탐색을 위한 새로운 접근 방식 제시.
◦
제로샷 설정에서 최첨단 성능 달성 (성공률 2배 향상, 시간 절반 단축, VLM 호출 55% 감소).
◦
빠른 탐색, 기호 추론, 캐시 기반 실행의 효과적인 통합.
◦
실세계 자율 주행 시스템 개발에 대한 중요한 시사점 제공.
•
한계점:
◦
제시된 프레임워크의 일반화 성능에 대한 더욱 폭넓은 실험 필요.
◦
복잡하고 예측 불가능한 환경에서의 성능 평가 필요.
◦
캐시 메커니즘의 효율성에 대한 추가 분석 필요.
◦
장면 그래프 생성의 정확성 및 완전성에 대한 추가 연구 필요.
PDF 보기
👍
Made with Slashpage