Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration

Created by
  • Haebom

저자

Ye Li, Yuan Meng, Zewen Sun, Kangye Ji, Chen Tang, Jiajun Fan, Xinzhu Ma, Shutao Xia, Zhi Wang, Wenwu Zhu

개요

Vision-Language-Action (VLA) 모델의 높은 계산 비용과 낮은 실행 빈도를 해결하기 위해, SP-VLA라는 통합 프레임워크를 제안합니다. 이는 모델 스케줄링과 토큰 프루닝을 결합하여 VLA 모델을 가속화합니다. 특히, 액션 인식 모델 스케줄링을 통해 시간적 중복성을 줄이고, 공간-의미 듀얼 인식 토큰 프루닝을 통해 시각적 중복성을 제거합니다. SP-VLA는 VLA 모델과 경량 생성기를 동적으로 전환하여 실행 빈도를 조정하고, 중요한 액션과 주요 시각 정보에 집중하도록 유도하여 정확성을 유지하면서 효과적인 가속화를 달성합니다. 실험 결과, LIBERO에서 1.5배, SimplerEnv에서 2.4배의 무손실 가속을 달성했으며, 최대 6%의 평균 성능 향상을 보였습니다. 추론 빈도와 지연 시간은 SimplerEnv에서 2.2배, LIBERO에서 1.4배 향상되었습니다.

시사점, 한계점

시사점:
VLA 모델의 효율성 향상을 위한 새로운 프레임워크 제시.
모델 스케줄링과 토큰 프루닝을 결합하여 시간적, 공간적 중복성 모두 해결.
실험을 통해 높은 가속 성능과 정확성 유지 입증.
로봇 제어 및 자율 항해와 같은 실시간 작업에 VLA 모델 적용 가능성 증대.
한계점:
경량 생성기의 성능 및 일반화 능력에 따라 성능 차이가 발생할 수 있음.
모델 스케줄링 및 토큰 프루닝의 최적 파라미터 설정에 대한 추가 연구 필요.
다른 VLA 모델 및 환경에 대한 일반화 성능 검증 필요.
👍