[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis

Created by
  • Haebom

作者

Alexandre Symeonidis-Herzig, Ozge Mercano\u{g}lu Sincan, Richard Bowden

概要

この論文は、人間とコンピュータの相互作用とアクセシビリティの分野で表現力のあるアバターシステムのための現実的で高忠実度の3D顔アニメーションの作成について説明します。既存の方法のメッシュドメイン依存性による制限を克服するために、本論文は、光学的音声認識を地図学習として使用する光学的微分可能レンダリングを使用する新しい方法であるVisualSpeakerを提案します。 VisualSpeakerは、事前に訓練されたVisual Automatic Speech Recognitionモデルを介して光学3Dガウススプラッティングアバターレンダリングを通過することによって得られる知覚的唇読み取り損失関数を使用します。 MEADデータセットを使用した評価の結果、VisualSpeakerは標準のLip Vertex Errorインジケータを56.1%向上させ、生成されたアニメーションの知覚的品質を向上させながら、メッシュベースのアニメーションの制御可能性を維持します。特に、知覚的焦点は、正確な口の形状をサポートし、水和アバターで同様の受動信号を区別するために不可欠な手がかりを提供する。

Takeaways、Limitations

Takeaways:
2Dコンピュータビジョンとグラフィックスの発展を3D顔アニメーションに効果的に活用するための新しい方法を提示します。
知覚的な唇の読み取り損失関数を導入することにより、従来の方法よりもより現実的で自然な3D顔アニメーションを生成します。
Lip Vertex Error インジケータの改善と知覚的品質の向上により、水和アバターなどのさまざまなアプリケーションに利用可能性を高めます。
メッシュベースのアニメーションの制御可能性の維持
Limitations:
MEADデータセットの評価結果のみが提示され、他のデータセットの一般化性能は不確実です。
Visual Automatic Speech Recognitionモデルのパフォーマンスに依存する可能性があります。
Gaussian Splattingレンダリング手法の計算コストが高くなる可能性があります。
👍