Vega: Learning to Drive with Natural Language Instructions

Created by

Haebom

저자

Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu

💡 개요

기존 비전-언어-행동 모델은 언어를 주로 장면 설명이나 추론에 활용했지만, 사용자의 다양한 지시를 따르는 데 한계가 있었습니다. 본 논문은 10만 개 규모의 다양한 운전 지시와 궤적을 포함하는 대규모 데이터셋(InstructScene)을 구축하고, 이를 활용하여 비전-언어-세계-행동 통합 모델인 Vega를 제안합니다. Vega는 자기회귀 모델로 시각 및 언어 입력을 처리하고 확산 모델로 미래 예측 및 궤적 생성을 수행하여, 기존 방법보다 우수한 계획 성능과 뛰어난 지시 수행 능력을 보여줍니다.

🔑 시사점 및 한계

•

사용자 맞춤형 운전 경험을 위한 자연어 기반 개인화된 운전 시스템 개발의 가능성을 제시합니다.

•

시각, 언어, 세계 모델링, 행동 생성 등 다양한 요소를 통합하는 새로운 모델 아키텍처를 제안합니다.

•

대규모 데이터셋 구축을 통해 자연어 기반 운전 모델 연구의 토대를 마련했습니다.

•

실제 복잡하고 예측 불가능한 도로 환경에서의 일반화 성능 및 안전성에 대한 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage