Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Robix: A Unified Model for Robot Interaction, Reasoning and Planning

Created by
  • Haebom

作者

Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

概要

Robixは、ロボット推論、作業計画、自然言語相互作用を単一のビジョン言語アーキテクチャに統合した統合モデルです。階層型ロボットシステムの高水準認知階層として機能するRobixは、低レベルコントローラ用の原子命令と人間の相互作用のための言語応答を動的に生成し、ロボットが複雑な指示に従い、長期間の作業を計画し、エンドツーエンドのフレームワーク内で人間と自然に対話できるようにします。 Robixは、タスク実行中の事前会話、リアルタイムの中断処理、状況認識常識推論などの新機能を追加導入します。 Robixの中核は、思考連鎖推論を活用し、3段階の教育戦略を採用しています。 (1)3D空間の理解、視覚的基盤、および作業中心の推論を含む基本的な実装推論能力を向上させるための継続的な事前訓練、(2)人間とロボットの相互作用と作業計画を統合された推論 - 行動シーケンスとしてモデル化するための監督微調整、(3)推論 - 行動の一貫性と長期的な作業の一貫性を改善するための強化学習。広範な実験により、Robixは相互運用タスクの実行におけるオープンソースおよび商用基準(GPT-4oおよびGemini 2.5 Proなど)を上回り、さまざまな種類の指示(オープン、マルチレベル、制約、無効、および中断)やテーブルの整理、食料品の買い物、食事のフィルタリングなど、さまざまなユーザー関連のタスクで強力な一般化を実現します。

Takeaways、Limitations

Takeaways:
単一ビジョン - 言語アーキテクチャにおけるロボット推論、作業計画、および自然言語相互作用を統合した統合モデルを提示します。
事前会話、リアルタイム中断処理、状況認識常識推論などの新機能の導入。
さまざまなタスクと指示タイプの強力な一般化性能を実証
オープンソースおよび商用基準モデルに対して優れた性能を達成。
Limitations:
論文で具体的なLimitationsや今後の研究方向への言及が不足している。
実験環境とデータセットの詳細な説明が必要です。
モデルのスケーラビリティと実際の環境適用性に関するさらなる研究が必要である。
👍