Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

3DFacePolicy: Audio-Driven 3D Facial Animation Based on Action Control

Created by
  • Haebom

作者

Xuanmeng Sha, Liyun Zhang, Tomohiro Mashita, Naoya Chiba, Yuki Uranishi

概要

本稿では、オーディオベースの3D顔アニメーションにおける既存のフレーム単位の頂点生成方式の制限を克服するために、「アクション」という概念を導入した3DFacePolicyを提案します。連続フレーム間の頂点軌跡の変化をアクションとして定義し、オーディオと頂点の状態を条件に拡散ポリシー(diffusion policy)ベースのロボット制御メカニズムを活用して、各頂点のアクションシーケンスを予測します。これにより、アクションベースの制御パラダイムで頂点生成方式を再構成し、より自然で連続的な顔の動きを生成します。 VOCASETとBIWIデータセットの実験の結果、従来の最先端の方法よりも優れており、ダイナミックで表現力豊かで自然な顔アニメーションに特に効果的でした。

Takeaways、Limitations

Takeaways:
オーディオベースの3D顔アニメーションで自然で連続的な動きを生成するための新しいアプローチを提示
アクションベースの制御パラダイムによる既存のフレーム単位方式の限界を克服
拡散政策に基づくロボット制御機構の有効活用
VOCASETおよびBIWIデータセットで最先端のパフォーマンスを実現
ダイナミックで表現力豊かな顔アニメーション生成の可能性を証明
Limitations:
提案された方法の一般化性能に関するさらなる研究の必要性
さまざまなオーディオタイプと顔の特徴に対するロバースト性評価が必要
アクション定義の主観性と改善の可能性
計算コストと効率の分析が必要
👍