Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Yan: Foundational Interactive Video Generation

Created by
  • Haebom

作者

Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang

概要

Yanは、シミュレーション、作成、編集までのインタラクションビデオ生成の完全なパイプラインをカバーする基礎フレームワークです。 Yanは3つのコアモジュールで構成されています。 AAA級シミュレーションのために、リアルタイム1080P/60FPS相互作用シミュレーションを実現する高圧縮低遅延3D-VAEとKVキャッシュベースのシフトウィンドウ脱ノイズ推論プロセスを設計しました。マルチモーダル生成のために、ゲーム固有の知識をオープンドメインマルチモーダルビデオ拡散モデル(VDM)に注入した後、VDMをフレーム単位でアクション制御可能なリアルタイム無限インタラクションビデオジェネレータに変換する階層的自己回帰キャプション方法を導入しました。テキストとビジュアルプロンプトが別のドメインからインポートされた場合でも、モデルは強力な一般化を示し、ユーザーのプロンプトに応じてクロスドメインスタイルとメカニズムを柔軟に混合して構成できます。マルチパーティクル編集のためのインタラクションメカニズムシミュレーションとビジュアルレンダリングを明示的に分離し、テキストを介してインタラクション中にマルチパーティクルビデオコンテンツを編集できるハイブリッドモデルを提案します。 Yanはこれらのモジュールを統合し、インタラクティブなビデオ作成を孤立した機能を超えて包括的なAIベースのインタラクティブ生成パラダイムに進化させ、次世代のクリエイティブツール、メディア、エンターテイメントへの道を切り開きます。

Takeaways、Limitations

Takeaways:
リアルタイム1080P/60FPSのAAA級品質インタラクションビデオシミュレーションの実装。
ゲーム固有の知識を活用したマルチモーダルビデオ生成とクロスドメインスタイルのミックス機能
テキストベースのマルチパーティクルビデオコンテンツ編集機能を提供します。
インタラクティブビデオ生成分野における新しいパラダイム提示と次世代創作ツールの可能性の提示
Limitations:
論文では具体的なLimitationsや今後の研究方向への言及が不足している。
モデルの性能評価の詳細は不足している。 (定量的評価指標及び結果提示不足)
モデルの訓練データと資源消費に関する情報不足
👍