针对视觉-语言-动作 (VLA) 模型计算成本高、执行频率低的问题,我们提出了一个统一的框架 SP-VLA。该框架结合模型调度和 token 剪枝来加速 VLA 模型。具体而言,它通过动作感知的模型调度减少时间冗余,并通过空间语义双重感知的 token 剪枝消除视觉冗余。SP-VLA 会在 VLA 模型和轻量级生成器之间动态切换,以调整执行频率,聚焦重要动作和关键视觉信息,在保持准确率的同时实现有效加速。实验结果表明,在 LIBERO 上无损加速 1.5 倍,在 SimplerEnv 上无损加速 2.4 倍,平均性能提升高达 6%。推理频率和延迟在 SimplerEnv 上也提升了 2.2 倍,在 LIBERO 上提升了 1.4 倍。