Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Created by
  • Haebom

作者

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

概要

本論文は、EO-Robotics、すなわち統合されたエンバディッド基礎モデルEO-1と150万以上のサンプルを含む大規模なマルチモーダルエンバディッド推論データセットEO-Data1.5Mを紹介します。 EO-1は、画像、テキスト、ビデオ、アクションなど多様なモーダル入力を区別なく処理する統合アーキテクチャとEO-Data1.5Mを基盤に自己回帰デコードとフローマッチングデノイジングのシナジーを介して訓練される。これにより、スムーズなロボットアクション生成とマルチモーダルエンバディッド推論を可能にし、多様な長期間、熟練した操作作業におけるオープンな世界理解と一般化に対する効果を見せる。論文では、EO-1のアーキテクチャ、EO-Data1.5Mのデータ構成戦略、およびトレーニング方法論の詳細について説明します。

Takeaways、Limitations

Takeaways:
マルチモーダルエンバディッド推論とロボット制御で優れた性能を達成する統合されたエンバディッド基礎モデルEO-1提示
さまざまなモーダル入力を区別なく処理する統合アーキテクチャの有効性を実証。
150万以上の高品質サンプルを含む大規模マルチモーダルエンバディッド推論データセットEO-Data1.5Mを公開。
自己回帰復号化とフローマッチングデノイジングの相乗効果による効果的な訓練方法の提示
長期間、熟練した操作作業におけるオープンな世界理解と一般化性能の向上。
Limitations:
EO-1の性能が人間レベルの柔軟性に達したかどうかの明確な比較分析の欠如
EO-Data1.5Mデータセットの偏りと一般化の可能性に関する追加の分析が必要です。
様々なロボットプラットフォームと環境におけるEO-1の一般化性能のためのより広い実験の必要性
エネルギー効率とリアルタイム性能の評価不足
👍