Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning

Created by
  • Haebom

作者

Ram Ramrakhya, Matthew Chang, Xavier Puig, Ruta Desai, Zsolt Kira, Roozbeh Mottaghi

概要

本論文は、曖昧で不完全な人間の指示を解釈しなければならない家庭環境で動作するマテリアライズされたエージェントの問題を研究します。 「Ask-to-Act」タスクを導入して、エージェントに曖昧さを解決するために関連する質問をし、部分的な観察の下でナビゲートし、単一または複数のオブジェクトの再配置操作を実行するようにします。提案されたアプローチは、マルチモーダル大規模言語モデル(MLLM)をオンライン強化学習(RL)を介して視覚 - 言語 - 行動(VLA)ポリシーに微調整することです。これはLLMによって生成された報酬を使用し、大規模な人間のデモンストレーションや手動で設計された報酬の必要性を排除します。提案された方法は、GPT-4oを含む強力なゼロショットベースおよび指導学習MLLMを上回り、新しいシーンや作業によく一般化されています。

Takeaways、Limitations

Takeaways:
家庭環境では、エージェントがあいまいな指示を理解し、関連する質問をすることで作業を効果的に実行できることを証明しました。
MLLMをVLAエージェントに適応させ、LLMで生成された報酬を使用してオンラインRLを実行する最初の試みです。
従来の強力なベースモデルを上回る大幅なパフォーマンス向上が見られました。
新しい環境と作業の一般化能力に優れています。
Limitations:
論文で具体的なLimitationsは言及されていない。
👍