Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Created by
  • Haebom

作者

台北キ、ドンチャンミン、ギョンスチェ

概要

この論文は、拡散ベースの生成モデルの進歩にもかかわらず、肖像画のアニメーションが時間的に一貫したビデオ生成と繰り返しサンプリングによる高速サンプリングに困難を抱えていることを指摘しています。この論文では、フローマッチング生成モデルに基づくオーディオベースのインタラクティブポートレートビデオ生成方法であるFLOATを紹介します。ピクセルベースのポテンシャルの代わりに学習された直交運動ポテンシャルを活用して、時間的に一貫した動作の効率的な作成と編集を可能にします。この目的のために、効果的なフレーム単位の条件付けメカニズムを備えた変圧器ベースのベクトルフィールド予測器を導入し、音声ベースの感情の強化をサポートし、表現力のある動きを自然に統合します。広範な実験を通して提示された方法は、視覚的品質、動作忠実度、および効率性の観点から、最先端のオーディオベースのインタラクティブな肖像画方法を上回ることを示しています。

Takeaways、Limitations

Takeaways:
フローマッチング生成モデルと直交運動潜在空間を活用し、時間的に一貫性が高く効率的なオーディオベースのインタラクティブポートレートビデオ生成を可能にします。
変圧器ベースのベクトル場予測器とフレーム単位の条件付け機構による自然な動きの生成と編集
音声ベースの感情強化機能により表現力のある動作を生成可能。
従来の方法よりも視覚的品質、動作忠実度、効率が向上します。
Limitations:
論文では具体的なLimitationsや今後の研究方向への言及が不足している。
特定のデータセットまたはハードウェア環境に依存するかどうかは不明です。
実際の適用時に発生する可能性のある問題や制約についての議論が不足しています。
👍