FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
Created by
Haebom
저자
Jiajun Cao, Qizhe Zhang, Peidong Jia, Xuhui Zhao, Bo Lan, Xiaoan Zhang, Zhuo Li, Xiaobao Wei, Sixiang Chen, Liyun Li, Xianming Liu, Ming Lu, Yang Wang, Shanghang Zhang
개요
본 논문은 자율주행 시스템에서 사용되는 Vision-Language-Action (VLA) 모델의 높은 계산 비용 문제를 해결하기 위해, 전경 정보를 우선적으로 유지하는 새로운 시각 토큰 가지치기 프레임워크인 FastDriveVLA를 제안합니다. FastDriveVLA는 MAE(Masked Autoencoders) 방식의 픽셀 재구성을 통해 전경 정보를 우선적으로 유지하는 ReconPruner를 포함하며, 전경-배경의 적대적 재구성 전략을 통해 VLA 모델의 시각적 인코더를 위한 ReconPruner를 훈련합니다. 훈련된 ReconPruner는 동일한 시각적 인코더를 가진 다양한 VLA 모델에 재훈련 없이 적용될 수 있습니다. 또한, 전경 영역이 주석된 241K 개의 이미지-마스크 쌍으로 구성된 대규모 데이터셋 nuScenes-FG를 소개합니다. 실험 결과, 제안된 방법은 다양한 가지치기 비율에서 nuScenes 오픈 루프 계획 벤치마크에서 최첨단 성능을 달성합니다.
시사점, 한계점
•
시사점:
◦
자율주행에서 VLA 모델의 계산 비용을 효과적으로 줄이는 새로운 방법 제시.
◦
전경 정보에 집중하는 인간 운전자의 행동을 모방하여 성능 저하를 최소화.
◦
다양한 VLA 모델에 적용 가능한 플러그 앤 플레이 방식의 ReconPruner 제시.
◦
대규모 전경 주석 데이터셋 nuScenes-FG 공개.
◦
nuScenes 오픈 루프 계획 벤치마크에서 최첨단 성능 달성.
•
한계점:
◦
nuScenes 데이터셋에만 집중되어 다른 자율주행 데이터셋으로의 일반화 성능 검증 필요.