Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models

Created by
  • Haebom

作者

Huijie Liu, Jingyun Wang, Shuai Ma, Jie Hu, Xiaoming Wei, Guoliang Kang

概要

この論文では、拡散モデル(DM)を使用して、アクションの概念が同じビデオクリップのセットで指定されたアクションを持つビデオを生成するアクションのカスタマイズについて説明します。従来の研究では、大規模な事前学習されたテキストビデオ拡散モデルにモーションコンセプトを表現して挿入するさまざまな方法(モーションLoRA学習、潜在ノイズ残差の使用など)を探求してきましたが、これらの方法では参照ビデオの外観を避けられないようにエンコードして外観生成能力が低下するという問題があります。この論文では、モーションコンセプトをエンコードするためにモーションLoRAを学習する一般的な方法に従いますが、タイムラプスタブレット(TAP)とファサード高速道路(AH)という2つの新しい戦略を提案し、モーション - ファサードの分離を改善します。 TAPは、事前学習されたValue埋め込みが新しいモーションを生成するために必要な基本コンポーネントで十分であると仮定し、時間的注意をモーションLoRAにのみ再構成し、Valueエンベディングを再構成して新しいモーションを生成します。 AHでは、U-Netの各スキップ接続の開始点を各時間的注意モジュールの出力から各空間的注意モジュールの出力に変更します。実験の結果、提案された方法は、従来の研究よりもテキストの説明と一致する外観と参照ビデオとより一貫した動作を持つビデオを生成できることを示しています。

Takeaways、Limitations

Takeaways:時間的注意タブレット(TAP)とファサード高速道路(AH)戦略は、従来の方法よりも改善されたモーション - ファサード分離を達成し、テキストの説明と一致するファサードと参照ビデオと一貫したアクションを持つビデオを生成できることを示しています。拡散モデルを用いた動作 カスタマイズ分野に貢献します。
Limitations: TAPとAH戦略の効果は、特定の種類の拡散モデルとデータセットに限定される可能性があります。さまざまな種類の拡散モデルとデータセットの追加の実験が必要です。さらに、非常に複雑なまたは様々な動作を含むビデオの一般化性能評価が必要である。
👍