每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

ThinkAct:通过强化视觉潜在规划进行视觉-语言-动作推理

Created by
  • Haebom

作者

黄志平、吴月华、陈敏宏、王玉强、杨福恩

大纲

本文提出了一个用于视觉-语言-动作 (VLA) 推理任务的双系统框架 ThinkAct。为了克服现有端到端 VLA 模型对多阶段规划或复杂任务变化的适应性不足的局限性,ThinkAct 通过增强的视觉潜在规划将高级推理与低级动作执行连接起来。它训练一个多模态 LLM,以生成由视觉奖励引导的具身推理计划,这些计划与目标达成和轨迹一致性相一致。这些计划随后被压缩到视觉规划潜在空间,并用作低级动作模型的条件,从而在目标环境中实现鲁棒的动作执行。大量的具身推理和机器人操作基准测试表明,ThinkAct 能够在几次试验中实现复杂具身人工智能任务中的适应性、长期规划和自我修正行为。

Takeaways,Limitations

Takeaways:
我们提出了一个新颖的框架,通过结合多模态 LLM 和强化学习,有效地连接高级推理和低级动作执行。
改进的少量适应能力,使您能够仅通过几次尝试就适应新任务。
实现长期规划和自我纠正行为。
在复杂的实施AI任务中表现出强大的性能。
Limitations:
需要进一步研究来评估所提出框架的泛化性能及其对各种环境的适用性。
视觉规划潜在空间在压缩过程中存在信息丢失的可能性。
复杂任务的计算成本可能很高。
随着 LLM 规模和复杂性的增加,训练和推理时间可能会增加。
👍