UrbanVLA: A Vision-Language-Action Model for Urban Micromobility
Created by
Haebom
Category
Empty
저자
Anqi Li, Zhiyong Wang, Jiazhao Zhang, Minghan Li, Yunpeng Qi, Zhibo Chen, Zhizheng Zhang, He Wang
개요
UrbanVLA는 배달 로봇과 같은 도시 마이크로 모빌리티 애플리케이션을 위한 시각-언어-행동(VLA) 프레임워크입니다. 대규모 도시 환경에서 장기적인 경로 안내를 따르며 안정적인 내비게이션을 제공합니다. 이 프레임워크는 경로 웨이포인트와 시각적 관찰을 정렬하고, 두 단계의 훈련 파이프라인(모의 훈련 및 강화 훈련)을 통해 저수준 및 고수준 내비게이션 기술을 모두 습득합니다. MetaUrban의 SocialNav 작업에서 기존 방법 대비 55% 이상 성능 향상을 보였으며, 실제 환경에서도 안정적인 내비게이션을 입증했습니다.