Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Yume: An Interactive World Generation Model

Created by
  • Haebom

作者

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

概要

Yumeは、画像、テキスト、またはビデオを使用して相互作用的で現実的で動的な世界を作成することを目的としたプロジェクトです。ユーザーは周辺機器や神経信号を使ってこの世界を探索して制御できます。このレポートでは、入力画像からダイナミックな世界を作成し、キーボード操作で世界を探索できるようにするYumeの試用版を紹介します。高品質でインタラクティブなビデオ世界を生み出すために、カメラの動きの量子化、ビデオ生成アーキテクチャ、高度なサンプラー、モデル加速の4つの主要コンポーネントで構成されたよく設計されたフレームワークを導入しました。安定したトレーニングとユーザーフレンドリーなキーボード入力のためのカメラ動きの量子化、自己回帰方式で無限のビデオ生成のためのメモリモジュールを備えたMasked Video Diffusion Transformer(MVDT)、より良い視覚品質とより正確な制御のためのトレーニングを必要としないAnti-Artifact Mechanism(AAM)とStochastic Differential Equations(DE)敵対的な蒸留とキャッシングメカニズムの相乗的最適化によるモデルの加速などが主要な技術的内容である。高品質の世界探索データセットであるSekaiを使用してYumeをトレーニングし、さまざまなシーンやアプリケーションで注目すべき結果を得ました。すべてのデータ、コードベース、およびモデルの重みはhttps://github.com/stdstu12/YUMEで利用でき、Yumeは毎月更新される予定です。

Takeaways、Limitations

Takeaways:
画像、テキスト、ビデオを活用したインタラクティブで現実的な仮想世界生成技術の提示
キーボード入力による直感的な世界探検が可能
MVDT、AAM、TTS-SDEなどの革新的な技術による高品質のビデオ生成と精密な制御
モデルを加速するための効率的な最適化手法の適用
オープンソースとして公開され、研究開発に貢献
Limitations:
現在のバージョンはキーボード入力にのみ依存しており、周辺機器や神経信号制御はまだ実装されていません
試用版として、完全な機能実装まではさらなる開発が必要
Sekaiデータセットの詳細な説明が不足
長期使用時に発生する可能性があるパフォーマンス低下や安定性の問題の検証不足
👍