Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Embodied Long Horizo​​n Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation

Created by
  • Haebom

作者

Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenguo Sun, Xukun Li, Zhenshan Bing, Alois Knoll

概要

本論文では、長期にわたる物体操作のための新しいロボット制御フレームワークを紹介します。既存の学習ベースのアプローチは、大規模なタスク固有のデータセットに依存し、未知のシナリオに一般化するのが困難であることを考慮して、この研究は、事前訓練された低レベルコントローラを使用する代わりに、大規模言語モデル(LLM)を利用して直接実行可能なコード計画を生成する閉ループフレームワークを提案します。 LLMは、事故プロセス(CoT)のガイダンスを受けている数回の学習と徐々に構造化された例で、強力で一般化可能な作業計画を作成し、RGB-Dを使用する報告者が結果を評価し、構造化されたフィードバックを提供し、誤り訂正および部分的な観察下での再計画を可能にします。これにより、段階的な推論を排除し、計算のオーバーヘッドを減らし、以前の方法で観察されたエラーの累積を制限します。 LoHoRavens、CALVIN、Franka Kitchen、および不自然な実環境で、30以上のさまざまな既知および未知の長期作業で最先端のパフォーマンスを達成します。

Takeaways、Limitations

Takeaways:
大規模な言語モデルを使用して、低レベルコントローラなしで直接実行可能なコードを生成することで、長期間のオブジェクト操作の問題に対する新しい解決策を提供します。
思考プロセス(CoT)ガイダンスと徐々に構造化された例示的な学習を通じて、堅牢で一般化可能な作業計画を作成します。
閉ループフレームワークとRGB-Dベースのフィードバックシステムにより、エラーの修正と再計画が可能になり、段階的な推論とエラーの累積を減らします。
さまざまな環境で30以上の作業で最先端のパフォーマンスを達成します。
Limitations:
LLMの性能に依存し、LLMの限界がシステムの性能に直接影響を及ぼす可能性があります。
RGB-Dセンサーに依存する部分があるため、センサーの性能が低下したり使用できなくなったりすると、システムの動作に問題が発生する可能性があります。
実際の環境での一般化性能には、追加の実験と検証が必要です。
LLMの計算コストは​​かなり高い可能性があり、リアルタイム性能に関するさらなる研究が必要です。
👍