本稿では、音声ベースの3D顔アニメーションで自然な顔の動きを生成するために、音声と同期したリアルな顔の動きを作成することを目的としています。従来の方法は、各フレームを実際のデータと整列させることで再構成損失を最小限に抑えることに焦点を当てていますが、これらのフレーム単位のアプローチは、調音の共同作用のために顔の動きの連続性を捉えることができず、揺れて不自然な結果をもたらすことがよくありました。これを解決するために、本論文は、音声コンテキストが音素遷移に与える影響を明示的にモデル化する新しい音声コンテキスト認識損失関数を提案する。音素調音の共同作用の重みを統合し、時間の経過に伴うダイナミックな変化に応じて顔の動きに適応的な重要度を割り当てることにより、よりスムーズで知覚的に一貫したアニメーションを保証します。広範な実験により、既存の再構成損失を提案された損失関数に置き換えることは、定量的指標と視覚的品質の両方が向上することを示しています。これは、自然な音声ベースの3D顔アニメーションを合成する際に、音声コンテキストに依存する音素を明示的にモデル化することが重要であることを強調しています。