FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
Created by
Haebom
Category
Empty
저자
Jiajun Cao, Qizhe Zhang, Peidong Jia, Xuhui Zhao, Bo Lan, Xiaoan Zhang, Zhuo Li, Xiaobao Wei, Sixiang Chen, Liyun Li, Xianming Liu, Ming Lu, Yang Wang, Shanghang Zhang
개요
FastDriveVLA는 자율 주행 시스템에 특화된 시각-언어-행동 (VLA) 모델의 계산 비용을 줄이기 위한 새로운 재구성 기반 시각 토큰 프루닝 프레임워크입니다. ReconPruner라는 플러그 앤 플레이 방식의 시각 토큰 프루너를 사용하여 MAE 스타일의 픽셀 재구성을 통해 전경 정보를 우선시합니다. 이를 위해, nuScenes-FG라는 대규모 전경 영역이 주석된 데이터셋을 도입하고, 적대적 전경-배경 재구성 전략을 통해 ReconPruner를 훈련합니다. 다양한 프루닝 비율에서 nuScenes open-loop planning 벤치마크에서 최고 성능을 달성합니다.