每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

将多模态法学硕士 (LLM) 应用于寻求强化学习帮助的具体代理

Created by
  • Haebom

作者

Ram Ramrakhya、Matthew Chang、Xavier Puig、Ruta Desai、Zsolt Kira、Roozbeh Mottaghi

大纲

本文研究了具身智能体在假设环境中运行的问题,该环境要求它们解读模糊且不完整的人类指令。我们引入了“提问-行动”任务,该任务要求智能体提出相关问题以解决模糊性、在部分观察下导航以及执行单个或多个物体的重新定位任务。该方法使用在线强化学习 (RL) 对具有视觉-语言-动作 (VLA) 策略的多模态大规模语言模型 (MLLM) 进行微调。该方法利用 LLM 生成的奖励,无需大规模人工演示或手动设计奖励。该方法优于强大的零样本和监督 MLLM(包括 GPT-4o),并且能够很好地泛化到新的场景和任务。

Takeaways, Limitations

Takeaways:
在家庭环境中,我们证明代理可以理解模糊的指令并通过询问相关问题有效地执行任务。
这是首次尝试将 MLLM 调整为 VLA 代理并使用 MLLM 生成的奖励执行在线 RL。
与现有的强大基础模型相比,它显示出显著的性能提升。
具有出色的推广到新环境和新任务的能力。
Limitations:
论文中没有提到具体的Limitations。
👍