Este artículo busca generar movimientos faciales realistas y sincronizados con el habla para lograr una animación facial 3D de aspecto natural e impulsada por el habla. Los métodos existentes se han centrado en minimizar la pérdida de reconstrucción mediante la alineación de cada fotograma con los datos de la realidad fundamental. Sin embargo, estos enfoques fotograma a fotograma suelen generar resultados inestables y poco naturales debido a la cooperación articulatoria, que altera la continuidad de los movimientos faciales. Para abordar este problema, proponemos una novedosa función de pérdida contextual que modela explícitamente el impacto del contexto fonético en las transiciones de fonemas. Al incorporar ponderaciones de cooperación fonema-articulación, asignamos importancia adaptativamente a los movimientos faciales en función de sus cambios dinámicos a lo largo del tiempo, lo que garantiza una animación más fluida y perceptualmente consistente. Experimentos exhaustivos demuestran que la sustitución de las pérdidas de reconstrucción convencionales por la función de pérdida propuesta mejora tanto las métricas cuantitativas como la calidad visual. Esto destaca la importancia de modelar explícitamente los fonemas, que dependen del contexto fonético, para sintetizar una animación facial 3D de aspecto natural impulsada por el habla.