VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference
Created by
Haebom
Category
Empty
저자
Ziyan Liu, Yeqiu Chen, Hongyi Cai, Tao Lin, Shuo Yang, Zheng Liu, Bo Zhao
개요
본 논문은 Vision-Language-Action (VLA) 모델의 실시간 배포를 어렵게 하는 높은 계산 비용 문제를 해결하기 위해, VLA 모델의 이중 시스템 특성과 로봇 조작에서의 시간적 연속성을 활용하는 토큰 가지치기 방법인 VLA-Pruner를 제안합니다. VLA-Pruner는 시각적 토큰 유지를 위해 의미적 관련성을 위한 vision-language 사전 채움 어텐션과 동작 실행을 위한 temporal smoothing을 통해 추정된 동작 디코딩 어텐션을 결합한 이중 수준 중요도 기준을 사용합니다. 이를 통해 의미 이해와 동작 실행 모두에 필요한 정보를 유지하면서 계산 예산을 효율적으로 관리합니다. 실험 결과, VLA-Pruner는 다양한 VLA 아키텍처와 로봇 작업에서 최첨단 성능을 달성했습니다.