Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

Created by
  • Haebom

作者

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

概要

本論文は、大規模ボディインタラクションデータへの依存性という主なボトルネックを解決するために、限られた短時間の地平線に焦点を当てた新しい世界モデリングパラダイムであるPrimitive Embodied World Models(PEWM)を提案します。 PEWMは、固定された短時間の地平線でビデオ生成を制限することで、言語的概念とロボットの動きの視覚的表現との間のきめ細かい位置合わせを可能にし、学習の複雑さを減らし、ボディデータ収集のデータ効率を向上させ、推論遅延時間を短縮します。モジュラーVision-Language Model(VLM)プランナーとStart-Goal heatmap Guidance mechanism(SGG)を備えた柔軟な閉ループ制御を可能にし、複雑な作業に対する生のレベルポリシーの構成的な一般化をサポートします。ビデオモデルの時空間視覚的事前情報とVLMの意味的認識を活用して、細かい物理的相互作用と高水準推論との間のギャップを解消し、スケーラブルで解釈可能で汎用的なボディインテリジェンスへの道を開きます。

Takeaways、Limitations

Takeaways:
大規模なデータ依存性問題を解決する新しい世界モデリングパラダイムを提示
言語と行動間のきめ細かいアライメントの向上
学習の複雑さと推論遅延時間の削減
データ効率の良いボディデータ収集が可能
複雑なタスクに対する構成的一般化のサポート
拡張可能で解釈可能で汎用的なボディインテリジェンスのための可能性を提示
Limitations:
限られた短時間の地平線による長期計画と予測の難しさ
固定された生のアクションセットへの依存性による柔軟性の制限
VLMとSGGの性能への依存性
実際のロボットシステムへの適用性と一般化性能の追加検証が必要
👍