Cet article propose un nouveau cadre, Text2Lip. Text2Lip intègre des entrées textuelles dans des séquences de visèmes structurées afin de réduire la dépendance aux données audiovisuelles appariées de haute qualité et de résoudre l'ambiguïté de l'acoustique et de la cartographie des mouvements labiaux. Cette intégration fournit des informations préalables linguistiquement informées, améliorant ainsi la précision de la prédiction des mouvements labiaux. De plus, une stratégie de substitution progressive visème-audio, basée sur le programme scolaire, transforme progressivement l'audio réel en pseudo-audio reconstruit à l'aide des caractéristiques des visèmes, permettant une génération robuste, quelle que soit la présence d'audio. Enfin, un moteur de rendu basé sur des points de repère est utilisé pour synthétiser des vidéos faciales réalistes avec une synchronisation labiale précise. Les résultats expérimentaux démontrent que Text2Lip surpasse les méthodes existantes en termes de précision sémantique, de réalisme visuel et de robustesse modale.