Sign In

UrbanVLA: A Vision-Language-Action Model for Urban Micromobility

Created by
  • Haebom
Category
Empty

저자

Anqi Li, Zhiyong Wang, Jiazhao Zhang, Minghan Li, Yunpeng Qi, Zhibo Chen, Zhizheng Zhang, He Wang

개요

UrbanVLA는 배달 로봇과 같은 도시 마이크로 모빌리티 애플리케이션을 위한 시각-언어-행동(VLA) 프레임워크입니다. 대규모 도시 환경에서 장기적인 경로 안내를 따르며 안정적인 내비게이션을 제공합니다. 이 프레임워크는 경로 웨이포인트와 시각적 관찰을 정렬하고, 두 단계의 훈련 파이프라인(모의 훈련 및 강화 훈련)을 통해 저수준 및 고수준 내비게이션 기술을 모두 습득합니다. MetaUrban의 SocialNav 작업에서 기존 방법 대비 55% 이상 성능 향상을 보였으며, 실제 환경에서도 안정적인 내비게이션을 입증했습니다.

시사점, 한계점

시사점:
대규모 도시 환경에서 확장 가능하고 견고한 내비게이션 프레임워크 제시.
시뮬레이션과 실제 데이터의 조합을 활용한 효과적인 훈련 방법론 제시.
SocialNav 태스크에서 기존 방법론 대비 뛰어난 성능을 보임.
실제 환경에서의 안정적인 작동을 통해 실제 적용 가능성을 입증.
한계점:
구체적인 한계점은 논문에서 명시되지 않음.
👍