Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Created by
  • Haebom

作者

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

概要

この論文は、ボディを持つエージェントでコードポリシーを生成するための豊富な知覚的根拠を可能にするマルチモーダル大規模言語モデル(MLLM)の最近の進歩について説明します。既存のシステムのほとんどは、タスクの完了中にポリシーの実行を適応的に監視し、コードを回復する効果的なメカニズムを欠いています。この研究では、HyCodePolicyと呼ばれるハイブリッド言語ベースの制御フレームワークを紹介します。このフレームワークは、身体を持つエージェントの閉ループプログラミングサイクルに体系的に統合されている、コード合成、幾何学的根拠、知覚監視、および反復回復を繰り返します。自然言語命令が与えられると、システムはまずそれを下位目標に分解し、オブジェクト中心の幾何学的基本要素に基づいて初期実行可能プログラムを生成します。その後、シミュレーションでプログラムが実行されている間、ビジョン - 言語モデル(VLM)は選択されたチェックポイントを観察し、実行の失敗を検出し、場所を特定し、失敗の原因を推定します。プログラムレベルのイベントをキャプチャする構造化実行トレースをVLMベースの知覚フィードバックと融合することで、HyCodePolicyは失敗の原因を推測し、プログラムを回復します。このハイブリッドデュアルフィードバックメカニズムは、最小限の人間監督で自己修正合成を可能にします。実験の結果、HyCodePolicyは、ロボット操作ポリシーの堅牢性とサンプル効率を大幅に向上させ、マルチモーダル推論を自律的な意思決定パイプラインに統合するスケーラブルな戦略を提供することを示しています。

Takeaways、Limitations

Takeaways:
マルチモーダル推論を活用してロボット操作ポリシーの堅牢性とサンプル効率を向上させる新しいフレームワークHyCodePolicyを提示します。
コード合成、幾何学的根拠、知覚監視、反復回復を組み込んだ閉ループプログラミングサイクルの実装。
VLMベースの知覚フィードバックとプログラムレベルのイベントトレースを組み合わせたハイブリッド二重フィードバックメカニズムによる自己修正合成可能
自律的意思決定パイプラインに複数のモーダル推論を統合するスケーラブルな戦略を提供
Limitations:
HyCodePolicyのパフォーマンスは、使用されるVLMおよび他のコンポーネントのパフォーマンスに依存する可能性があります。
複雑または予期しない障害状況の処理能力が制限される可能性があります。
シミュレーション環境でのパフォーマンスは、実際の環境への一般化の可能性を保証しません。
実際のロボットシステムに適用するときに発生する可能性がある追加の制約と問題を考慮する必要があります。
👍