Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

STANCE: Motion Coherent Video Generation Via Sparse-to-Dense Anchored Encoding

Created by
  • Haebom

作者

Zhifei Chen, Tianshuo Xu, Leyi Wu, Luozhou Wang, Dongyu Yan, Zihan You, Wenting Luo, Guo Zhang, Yingcong Chen

概要

STANCEは、オブジェクトの一貫した動きと相互作用を維持するのが困難なビデオ生成の問題を解決するための画像 - ビデオフレームワークです。主な問題として、2Dモーションヒントの情報損失と単一ヘッドでの外観と動きを最適化するときに発生するテクスチャの好みを指摘し、これを解決するためにInstance CuesとDense RoPEを提案します。 Instance Cuesは、希少なユーザー編集可能ヒントを密度の高い2.5Dモーションフィールドに変換し、Dense RoPEはモーショントークンに空間アドレス回転埋め込みを適用して、トークンスペース内のヒントの重要性を維持します。

Takeaways、Limitations

Takeaways:
ユーザーフレンドリーな2.5Dモーションフィールド生成により、モーションコントロールの効率を向上
Dense RoPEを使用して、モーションヒントの情報損失を最小限に抑え、安定した最適化を可能にします。
RGBと補助マップ(分割または深さ)を分離して学習安定性を確保し、時間的一貫性を向上させる。
Limitations:
論文で具体的なLimitations記載されていません。
👍