每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

基于 LLM 的具身任务完成代理的计划验证

Created by
  • Haebom

作者

Ananth Hariharan、Vardhan Dongre、Dilek Hakkani-T ur、Gokhan Tur

大纲

本文探讨了基于大规模语言模型 (LLM) 的人工智能实现任务规划及其相应的人工演示,由于不必要的操作、冗余探索和逻辑错误,可能会降低策略质量的问题。为了解决这个问题,我们提出了一个迭代验证框架,其中判断型 LLM 负责评估动作序列,而规划型 LLM 负责应用修正。与基于规则的方法不同,该方法依赖于自然语言提示,能够广泛泛化各种错误类型,包括不相关的操作、矛盾和缺失步骤。在 TEACh 人工智能实现数据集中手动注释的操作集上,该框架在四个最先进的 LLM(GPT-4-mini、DeepSeek-R1、Gemini 2.5 和 LLaMA 4 Scout)上实现了高达 90% 的召回率和 100% 的准确率。改进后的循环收敛速度很快,96.5% 的序列最多可进行三次迭代,从而提高了时间效率和空间动作组合。重要的是,该方法保留了人为错误恢复模式,为未来稳健纠正行为的研究提供支持。通过将规划验证确立为空间规划和行为改进的可靠 LLM 函数,本研究为人工智能中的模仿学习提供了一条可扩展的高质量训练数据获取途径。

Takeaways, Limitations

Takeaways:
我们证明,可以通过使用 LLM 的迭代计划验证框架来提高 AI 任务计划的质量。
基于自然语言提示的方法可确保各种类型错误的普遍性。
提高时间效率和空间行为组织。
通过保留人为错误恢复模式,有助于研究强大的纠正行为。
我们提出了一种可扩展的方法来生成用于模仿学习的高质量训练数据。
Limitations:
目前实验结果仅限于TEACh数据集,需要进一步研究以确定其对其他数据集的通用性。
这取决于LLM的表现,LLM的局限性可能会影响结果。
需要验证复杂任务或多样化情况的泛化性能。
👍