Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WorldVLA: Towards Autoregressive Action World Model

Created by
  • Haebom

作者

Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

概要

WorldVLAは、行動と画像の理解と生成を統合する自動回帰的行動世界モデルです。 Vision-Language-Action(VLA)モデルと世界モデルを単一のフレームワークに統合し、行動と画像の理解を活用して将来の画像を予測し、環境の基本的な物理法則を学習して行動生成を改善します。画像観察に基づいて後続の行動を生成する行動モデルは、視覚的理解を助け、世界モデルの視覚的生成を支援する。 WorldVLAは、独立した行動モデルと世界モデルよりも優れており、世界モデルと行動モデル間の相互強化効果を示しています。ただし、自動回帰方式で行動シーケンスを作成すると、行動モデルのパフォーマンスが低下します。これは、行動予測に対するモデルの一般化能力が制限されているため、最初の行動のエラーが後続の行動に伝播するためです。この問題を解決するために、現在の行動生成中に前の行動を選択的にマスクするアテンションマスク戦略を提案し、行動チャンク生成操作のパフォーマンスを大幅に向上させました。

Takeaways、Limitations

Takeaways: VLAモデルと世界モデルの統合により、行動と画像の理解と生成のパフォーマンスの向上を達成。行動モデルと世界モデル間の相互強化効果を実証アテンションマスク戦略による自動回帰行動の生成時に発生するエラー伝播のトラブルシューティング
Limitations:自動回帰行動を生成するときの行動モデルのパフォーマンス低下の問題。行動予測に対するモデルの一般化能力は限られている。
👍