Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ManiAgent: An Agentic Framework for General Robotic Manipulation

Created by
  • Haebom

作者

Yi Yang, Kefan Gu, Yuqing Wen, Hebei Li, Yucheng Zhao, Tiancai Wang, Xudong Liu

概要

Vision-Language-Action(VLA)モデルの複雑な推論と長期的な作業計画能力の欠如の問題を解決するために、作業説明と環境入力をロボット操作動作にエンドツーエンド変換するエージェントベースのアーキテクチャであるManiAgentを提案します。このアーキテクチャは、環境認識、サブタスク分解、および動作生成のためにエージェント間通信を利用して、複雑な操作シナリオを効率的に処理します。 SimplerEnvベンチマークで86.8%の成功率、実際のピックアンドプレース作業で95.8%の成功率を達成し、人間が注釈付きのデータセットで訓練されたモデルと同様の性能を示すVLAモデルのための効率的なデータ収集を可能にする。

Takeaways、Limitations

Takeaways:
ManiAgentは複雑なロボット操作で優れた性能を発揮します。
エージェント間通信で複雑なタスクを効率的に処理します。
人間の注釈データセットと同様の性能を示すVLAモデルのための効率的なデータ収集を可能にします。
Limitations:
論文で具体的なLimitationsへの言及はありません。
👍