Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data

Created by
  • Haebom

作者

Andrew C. Li, Toryn Q. Klassen, Andrew Wang, Parand A. Alamdari, Sheila A. McIlraith

概要

本論文は、言語、知覚、行動を結びつけて、人間や他のエージェントと言語を通じて対話できるエージェントを構築する主な課題を解決しようとする。この目的のために、言語ベースを手動で設計したり大規模なデータセットをキュレーションしたりすることなく、高レベルの作業仕様で直接RLエージェントを訓練するエンドツーエンドの神経記号フレームワークであるGround-Compose-Reinforceを提案します。 Reward Machinesは、高レベルの作業構造を捉えるオートマタベースの表現で、自然言語で自動書式化が可能です。このフレームワークは、350のラベル付き事前訓練軌跡だけで複雑な行動を忠実に誘導し、構成性を活用して限られたデータでReward Machinesを基盤化できることを実験的に証明する。

Takeaways、Limitations

Takeaways:
受動的な作業設計や大規模なデータセットなしで高レベルの作業仕様で直接RLエージェントを訓練する革新的なフレームワークを提示します。
構成性を活用して、限られたデータで複雑な行動を学習できる可能性を提示。
Reward Machinesを活用して、自然言語ベースの作業仕様で自動フォーマットを可能にします。
Limitations:
Meta-Worldドメインでの実験結果のみが提示され、他のドメインへの一般化の可能性をさらに検証する必要があります。
事前訓練の軌跡の量は限られていますが、実際の複雑な環境で適用するのに十分なデータであるかどうかは追加の研究が必要です。
非構成的アプローチとの比較に加えて、他の最新のRLアルゴリズムとの比較を通じてパフォーマンス優位性をさらに実証する必要があります。
👍