每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

投票:基于轨迹集成投票的视觉-语言-动作优化

Created by
  • Haebom

作者

林居易、阿米尔·塔赫林、阿拉什·阿克巴里、阿曼·阿克巴里、陆雷、陈光宇、塔斯金·帕迪尔、杨小萌、陈伟伟、李益谦、林雪、大卫·凯利、赵璞、王彦志

大纲

为了应对构建基于自然语言指令执行机器人操作任务的大规模“视觉-语言-动作 (VLA)”模型的挑战,我们开发了一个专注于生成少量动作标记的训练框架,以降低推理延迟和训练成本。此外,我们引入了一种基于投票的集成策略,该策略结合了当前和之前的动作预测,从而提升了生成动作的可用性并提升了整体性能。最终,我们实现了优于最先进 VLA 模型的性能,在边缘平台上以 46 Hz 的频率实现了比 OpenVLA 快 39 倍的推理速度,展现了最快的推理速度和实用性。

Takeaways, Limitations

Takeaways:
减少推理延迟和训练成本:通过生成更少的动作标记来提高 VLA 模型的效率。
性能改进:通过提高基于投票的集成策略产生的动作的利用率来提高整体性能。
实际部署潜力:在边缘平台上以 46Hz 的吞吐量和 39 倍的推理速度进行演示。
Limitations:
论文中没有具体说明Limitations。
👍