Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars

Created by
  • Haebom

作者

Tianbao Zhang, Jian Zhao, Yuer Li, Zheng Zhu, Ping Hu, Zhaoxin Fan, Wenjun Wu, Xuelong Li

概要

この論文は、オーディオベースのアバターのポーズと表情を生成するための新しいフレームワークであるAsynFusionを提案します。 AsynFusionは拡散コンバータを活用して表情とジェスチャーを調和させて合成し、二重分岐DiTアーキテクチャに基づいて並列生成を可能にします。 Cooperative Synchronization Moduleを介して2つのモダリティ間の相互作用を促進し、Asynchronous LCM Sampling戦略を使用して計算負荷を軽減しながら高品質の出力を維持します。実験の結果、AsynFusionはリアルタイムで同期された全身アニメーション生成における既存の方法を上回る性能を示した。

Takeaways、Limitations

Takeaways:
表情とジェスチャーのスムーズな調整により、より自然なアニメーション生成が可能。
リアルタイムパフォーマンスのための効率的なサンプリング戦略の導入。
既存の方法を上回る優れた性能を実証。
バーチャルリアリティ、デジタルエンターテイメント、テレコミュニケーションなど、さまざまな分野に適用可能な提示。
Limitations:
論文に具体的なLimitationsは記載されていない。
(家庭)モデルの複雑さ、学習データの依存性、特定の環境でのパフォーマンスの低下の可能性など、さらなる研究が必要です。
👍