この論文は、人間とコンピュータの相互作用とアクセシビリティの分野で表現力のあるアバターシステムのための現実的で高忠実度の3D顔アニメーションの作成について説明します。既存の方法のメッシュドメイン依存性による制限を克服するために、本論文は、光学的音声認識を地図学習として使用する光学的微分可能レンダリングを使用する新しい方法であるVisualSpeakerを提案します。 VisualSpeakerは、事前に訓練されたVisual Automatic Speech Recognitionモデルを介して光学3Dガウススプラッティングアバターレンダリングを通過することによって得られる知覚的唇読み取り損失関数を使用します。 MEADデータセットを使用した評価の結果、VisualSpeakerは標準のLip Vertex Errorインジケータを56.1%向上させ、生成されたアニメーションの知覚的品質を向上させながら、メッシュベースのアニメーションの制御可能性を維持します。特に、知覚的焦点は、正確な口の形状をサポートし、水和アバターで同様の受動信号を区別するために不可欠な手がかりを提供する。