每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SP-VLA:一种用于 VLA 模型加速的联合模型调度和标记剪枝方法

Created by
  • Haebom

作者

李晔、孟媛、孙泽文、纪康业、唐晨、范家军、马新竹、夏树涛、王志、朱文武

大纲

针对视觉-语言-动作 (VLA) 模型计算成本高、执行频率低的问题,我们提出了一个统一的框架 SP-VLA。该框架结合模型调度和 token 剪枝来加速 VLA 模型。具体而言,它通过动作感知的模型调度减少时间冗余,并通过空间语义双重感知的 token 剪枝消除视觉冗余。SP-VLA 会在 VLA 模型和轻量级生成器之间动态切换,以调整执行频率,聚焦重要动作和关键视觉信息,在保持准确率的同时实现有效加速。实验结果表明,在 LIBERO 上无损加速 1.5 倍,在 SimplerEnv 上无损加速 2.4 倍,平均性能提升高达 6%。推理频率和延迟在 SimplerEnv 上也提升了 2.2 倍,在 LIBERO 上提升了 1.4 倍。

Takeaways,Limitations

Takeaways:
提出了一种提高VLA模型效率的新框架。
结合模型调度和标记修剪来解决时间和空间冗余问题。
实验证明,它保持了较高的加速性能和精度。
提高了 VLA 模型对机器人控制和自主导航等实时任务的适用性。
Limitations:
性能可能因轻量级生成器的性能和泛化能力而异。
需要进一步研究模型调度和令牌修剪的最佳参数设置。
需要对其他 VLA 模型和环境进行泛化性能验证。
👍