Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

Created by
  • Haebom

作者

Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

概要

WorldForgeは、ビデオ拡散モデルの制御可能性と幾何学的一貫性の欠如の問題を解決するために提案されたトレーニングを必要としない推論時間フレームワークです。既存の方法の再訓練または微調整による事前学習の知識の低下と高い計算コストの問題を解決するために、3つのモジュール(Intra-Step Recursive Refinement、Flow-Gated Latent Fusion、Dual-Path Self-Corrective Guidance)により、正確な軌跡注入とリアルなコンテンツ生成を可能にします。各モジュールは、推論の過程でネットワーク予測を繰り返し最適化したり、光学的流れ類似性を使用して動きと外観を分離したり、ガイドされていない/案内されていないノイズ除去経路を比較して軌道偏差を修正したりします。さまざまなベンチマーク実験により、現実性、軌道一貫性、視覚的忠実度の面で卓越性が実証され、制御可能なビデオ合成のための新しいプラグアンドプレイパラダイムを提示します。

Takeaways、Limitations

Takeaways:
トレーニングなしでビデオ拡散モデルの制御可能性を高めるための新しい方法を提示します。
既存方法の再訓練/微調整による問題点(計算コストの増加、事前学習の知識低下)の解決。
正確な軌跡制御とリアルなコンテンツ生成を同時に達成。
ビデオ合成の分野で新しいプラグアンドプレイパラダイムを提示します。
さまざまなベンチマークで優れた性能を証明。
Limitations:
提示された3つのモジュールの相互作用と最適化プロセスの詳細な説明の欠如
特定の種類のビデオデータに対するパフォーマンス偏向の可能性
さまざまなビデオの長さと複雑さのための一般化性能検証の欠如
リアルタイム処理性能の分析不足
👍