Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning

Created by
  • Haebom
Category
Empty

저자

Jiajun Cao, Qizhe Zhang, Peidong Jia, Xuhui Zhao, Bo Lan, Xiaoan Zhang, Zhuo Li, Xiaobao Wei, Sixiang Chen, Liyun Li, Xianming Liu, Ming Lu, Yang Wang, Shanghang Zhang

개요

FastDriveVLA는 자율 주행 시스템에 특화된 시각-언어-행동 (VLA) 모델의 계산 비용을 줄이기 위한 새로운 재구성 기반 시각 토큰 프루닝 프레임워크입니다. ReconPruner라는 플러그 앤 플레이 방식의 시각 토큰 프루너를 사용하여 MAE 스타일의 픽셀 재구성을 통해 전경 정보를 우선시합니다. 이를 위해, nuScenes-FG라는 대규모 전경 영역이 주석된 데이터셋을 도입하고, 적대적 전경-배경 재구성 전략을 통해 ReconPruner를 훈련합니다. 다양한 프루닝 비율에서 nuScenes open-loop planning 벤치마크에서 최고 성능을 달성합니다.

시사점, 한계점

자율 주행에 특화된 시각 토큰 프루닝 프레임워크 제안
전경 정보 보존을 위한 MAE 스타일의 픽셀 재구성 기반 프루닝
ReconPruner는 훈련된 후, 추가 훈련 없이 다양한 VLA 모델에 적용 가능
nuScenes-FG 데이터셋 도입
nuScenes 벤치마크에서 SOTA 달성
한계점은 논문 원문을 참조해야 함 (언급되지 않음)
👍