Bài báo này nhằm mục đích tạo ra các chuyển động khuôn mặt chân thực, đồng bộ với giọng nói cho hoạt ảnh khuôn mặt 3D điều khiển bằng giọng nói trông tự nhiên. Các phương pháp hiện có tập trung vào việc giảm thiểu tổn thất tái tạo bằng cách căn chỉnh từng khung hình với dữ liệu thực tế. Tuy nhiên, các phương pháp tiếp cận từng khung hình này thường dẫn đến kết quả không ổn định và không tự nhiên do sự phối hợp phát âm, làm gián đoạn tính liên tục của các chuyển động khuôn mặt. Để giải quyết vấn đề này, chúng tôi đề xuất một hàm mất mát mới, nhận biết ngữ cảnh, mô hình hóa rõ ràng tác động của ngữ cảnh ngữ âm lên các chuyển đổi âm vị. Bằng cách kết hợp các trọng số phối hợp phát âm âm vị, chúng tôi gán tầm quan trọng một cách thích ứng cho các chuyển động khuôn mặt dựa trên những thay đổi động của chúng theo thời gian, đảm bảo hoạt ảnh mượt mà hơn và nhất quán hơn về mặt nhận thức. Các thí nghiệm mở rộng chứng minh rằng việc thay thế các tổn thất tái tạo thông thường bằng hàm mất mát được đề xuất sẽ cải thiện cả số liệu định lượng và chất lượng hình ảnh. Điều này làm nổi bật tầm quan trọng của việc mô hình hóa rõ ràng các âm vị, vốn phụ thuộc vào ngữ cảnh ngữ âm, trong việc tổng hợp hoạt ảnh khuôn mặt 3D điều khiển bằng giọng nói trông tự nhiên.