Sign In

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

Created by
  • Haebom
Category
Empty

저자

NVIDIA, :, Yan Wang, Wenjie Luo, Junjie Bai, Yulong Cao, Tong Che, Ke Chen, Yuxiao Chen, Jenna Diamond, Yifan Ding, Wenhao Ding, Liang Feng, Greg Heinrich, Jack Huang, Peter Karkus, Boyi Li, Pinyi Li, Tsung-Yi Lin, Dongran Liu, Ming-Yu Liu, Langechuan Liu, Zhijian Liu, Jason Lu, Yunxiang Mao, Pavlo Molchanov, Lindsey Pavao, Zhenghao Peng, Mike Ranzinger, Ed Schmerling, Shida Shen, Yunfei Shi, Sarah Tariq, Ran Tian, Tilman Wekel, Xinshuo Weng, Tianjun Xiao, Eric Yang, Xiaodong Yang, Yurong You, Xiaohui Zeng, Wenyuan Zhang, Boris Ivanovic, Marco Pavone

개요

AR1은 복잡한 주행 시나리오에서 의사 결정을 개선하기 위해 Chain of Causation 추론과 궤적 계획을 통합한 비전-언어-행동 모델 (VLA) 입니다. 주요 혁신은 다음과 같습니다. (1) 자동 라벨링과 human-in-the-loop 파이프라인을 통해 구축된, 주행 행동과 관련된 결정 기반, 인과적으로 연결된 추론 추적을 생성하는 Chain of Causation (CoC) 데이터 세트; (2) 물리적 AI 애플리케이션을 위해 사전 훈련된 Vision-Language Model인 Cosmos-Reason과 실시간으로 동적으로 실행 가능한 계획을 생성하는 diffusion 기반 궤적 디코더를 결합한 모듈식 VLA 아키텍처; (3) 추론을 이끌어내기 위한 지도 학습 미세 조정과, 대규모 추론 모델 피드백을 통해 추론 품질을 최적화하고 추론-행동 일관성을 강화하기 위한 강화 학습 (RL)을 사용하는 다단계 학습 전략.

시사점, 한계점

시사점:
궤적 전용 baseline 대비 까다로운 경우 계획 정확도가 최대 12% 향상.
closed-loop 시뮬레이션에서 off-road 비율 35% 감소 및 close encounter 비율 25% 감소.
RL 사후 학습을 통해 대규모 추론 모델 평론가가 측정한 추론 품질 45% 향상 및 추론-행동 일관성 37% 향상.
0.5B에서 7B 매개변수로 모델 확장 시 지속적인 성능 향상.
차량 도로 테스트에서 실시간 성능 (99ms 지연 시간) 및 도시 배포 성공 확인.
Level 4 자율 주행을 향한 실용적인 경로 제시.
한계점:
논문에서 명시된 한계점은 없음.
향후 AR1 모델 및 CoC의 일부 공개 예정.
👍