Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Pack and Force Your Memory: Long-form and Consistent Video Generation

Created by
  • Haebom

作者

Xiaofei Wu, Guozhen Zhang, Zhiyong Xu, Yuan Zhou, Qinglin Lu, Xuming He

概要

本論文は、長期画像生成のためのモデルの2つの主な課題、すなわち長距離依存性捕捉と自己回帰復号による誤差累積を解決するために、MemoryPackとDirect Forcingを提案する。 MemoryPackはテキストと画像情報を活用して短期および長期依存性を共同でモデル化し、Direct Forcingは学習推論アライメントを改善し、推論中のエラー伝播を減らします。

Takeaways、Limitations

MemoryPackは、分単位の時間的一貫性を達成し、計算効率を維持しながら、ビデオの長さに応じてスケーラブルな動的コンテキストモデリングを提供します。
Direct Forcingによるシングルステップ近似戦略で学習推論アライメントを改善し、エラー伝播を抑制します。
自己回帰ビデオモデルの実用的な使いやすさを向上させます。
論文の具体的な実験結果と性能比較に関する情報は提供されなかった。
モデルの一般化性能と様々な種類のビデオ生成への適用性に関するさらなる研究が必要である。
👍