Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

Created by
  • Haebom

저자

Songsheng Wang, Rucheng Yu, Zhihang Yuan, Chao Yu, Feng Gao, Yu Wang, Derek F. Wong

개요

본 논문은 Vision-Language-Action (VLA) 모델의 계산 비용을 줄이기 위해 Speculative Decoding (SD) 프레임워크를 적용한 Spec-VLA를 제안합니다. 기존 VLA 모델은 Visual Language Model (VLM)의 큰 파라미터 크기와 autoregressive (AR) 디코딩으로 인해 계산 비용이 높았습니다. Spec-VLA는 action prediction task의 어려움과 VLA 모델의 greedy decoding mechanism으로 인한 한계를 극복하기 위해, action token의 상대 거리를 이용한 효과적인 acceptance relaxation mechanism을 제안합니다. 실험 결과, Spec-VLA는 OpenVLA baseline 대비 성공률 저하 없이 1.42배의 속도 향상을 달성하며, acceptance length를 44% 향상시켰습니다. 이는 VLA 예측 시나리오에서 speculative execution의 잠재력을 보여줍니다.

시사점, 한계점

시사점:
VLA 모델의 속도 향상을 위한 효과적인 SD 프레임워크인 Spec-VLA 제시
Action token의 상대 거리를 이용한 acceptance relaxation mechanism의 효용성 검증
OpenVLA baseline 대비 1.42배의 속도 향상 및 44%의 acceptance length 향상 달성
VLA 예측 분야에서 speculative execution의 적용 가능성 제시
한계점:
VLA 모델의 greedy decoding mechanism으로 인해 SD의 효과가 제한적일 수 있음.
제안된 acceptance relaxation mechanism의 일반화 가능성에 대한 추가 연구 필요.
다른 VLA 모델이나 더 복잡한 작업에 대한 Spec-VLA의 성능 평가가 필요.
👍