Cet article vise à générer des mouvements faciaux réalistes et synchronisés avec la parole pour une animation faciale 3D naturelle et pilotée par la parole. Les méthodes existantes se sont concentrées sur la minimisation des pertes de reconstruction en alignant chaque image sur les données de référence. Cependant, ces approches image par image produisent souvent des résultats instables et artificiels en raison de la coopération articulatoire, ce qui perturbe la continuité des mouvements faciaux. Pour remédier à ce problème, nous proposons une nouvelle fonction de perte contextuelle qui modélise explicitement l'impact du contexte phonétique sur les transitions phonémiques. En intégrant des pondérations de coopération phonème-articulatoire, nous attribuons de manière adaptative l'importance aux mouvements faciaux en fonction de leurs variations dynamiques au fil du temps, garantissant ainsi une animation plus fluide et plus cohérente sur le plan perceptuel. Des expériences approfondies démontrent que le remplacement des pertes de reconstruction conventionnelles par la fonction de perte proposée améliore à la fois les mesures quantitatives et la qualité visuelle. Cela souligne l'importance de la modélisation explicite des phonèmes, qui dépendent du contexte phonétique, pour synthétiser une animation faciale 3D naturelle pilotée par la parole.