Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mixture of Contexts for Long Video Generation

Created by
  • Haebom

作者

Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

概要

この論文では、長いビデオ生成を長い文脈記憶問題に再構成し、これを解決するために、混合文脈(MoC)と呼ばれる学習可能な希少注意パスモジュールを提案します。 MoCは、各クエリが情報が豊富ないくつかのチャンクと必須アンカー(字幕、地域ウィンドウ)を動的に選択して注意を払うように、循環経路の閉鎖を防ぐ因果的経路指定を使用します。データサイズを拡大し、経路指定を徐々に疎にすることで、モデルは重要な過去の履歴に計算を割り当て、数分のコンテンツにわたってアイデンティティ、行動、シーンを保存します。これにより、検索(ほぼ線形拡張)の副産物が効率的になり、実践的なトレーニングと合成が可能になり、数分単位のメモリと一貫性があります。従来の自己主義メカニズムの二次コスト問題を希少主義経路指定によって解決し、長い文脈のビデオ生成を可能にします。

Takeaways、Limitations

Takeaways:
長い文脈のビデオ生成のための効率的な方法の提示(ほぼ直線的スケーラビリティ)。
長いビデオ生成におけるメモリとの一貫性のトラブルシューティング
希少主義経路指定による自己主義機構の計算コスト問題の解決
数分単位の長いビデオ生成の可能性を提示します。
Limitations:
MoCモジュールのパフォーマンスは、データサイズとスパース戦略に大きく依存する可能性があります。
提案された方法の一般化性能に関するさらなる研究の必要性
因果的経路指定による循環経路閉塞防止の効率と限界に関するさらなる分析の必要性
実際の適用に必要な計算資源とメモリー要件の詳細な分析が必要
👍