Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics

Created by
  • Haebom

作者

Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi

概要

Puppet-Masterは、オブジェクトの内部部分レベルの動きを捉えて、普遍的なオブジェクトダイナミクスモデリングのためのプロキシとして機能するインタラクティブビデオジェネレータです。オブジェクトの画像とオブジェクトのいくつかの点の軌跡を指定​​する「ドラッグ」のセットが与えられると、モデルはオブジェクトの部分がそれに応じて動くビデオを合成します。この目的のために、事前に訓練された画像 - ビデオジェネレータを拡張して入力ドラッグをエンコードし、領域外データに対するビデオジェネレータの微調整によるアーチファクトを軽減する既存の空間的アテンションの代替として、all-to-firstアテンションを提案します。合成3Dアニメーションをレンダリングして得られた、キュレーションされた部分レベルのモーションクリップの新しいデータセットであるObjaverse-Animation-HQで微調整されます。この合成クリップは、実際のビデオとは異なり、オブジェクト全体とカメラの動きと部分的な動きを混同しません。最適ではないアニメーションを広範囲にフィルタリングし、オブジェクトの内部ダイナミクスを強調する意味のあるドラッグで合成レンダリングを強化します。 Puppet-Masterは、主にオブジェクト全体を移動する他の動き条件ビデオジェネレータとは異なり、部分レベルの動きを生成することを学びます。また、領域外の実際の画像に対して一般化がよく、ゼロショット方式で実際の世界ベンチマークで従来の方法よりも性能が優れています。

Takeaways、Limitations

Takeaways:
部分レベルのオブジェクトの動きを生成する新しいインタラクティブビデオジェネレータPuppet-Masterを提示します。
従来の方法よりも実際の世界ベンチマークでゼロショット性能に優れています。
領域外データに対する微調整による人工物を軽減するオールツーファーストアテンション技術を提案する。
合成データを活用して、部分レベルの動きの学習を効果的に行います。
Limitations:
Objaverse-Animation-HQデータセットへの依存性が高いです。さまざまなデータセットでのパフォーマンス検証が必要です。
「ドラッグ」の正確な指定は、結果の品質に影響を与える可能性があります。ドラッグ指定の自動化に関するさらなる研究が必要です。
合成データで訓練されたため、実際の世界データの複雑さと多様性を完全に反映できない可能性があります。実際のデータに対してより堅牢なパフォーマンス向上が必要です。
👍