Cet article présente le framework FaceEditTalker, qui intègre l'édition des attributs faciaux à la génération audio de têtes parlantes. Contrairement aux études précédentes axées sur la synchronisation labiale et l'expression émotionnelle, FaceEditTalker ajuste de manière flexible les attributs visuels tels que la coiffure, les accessoires et les traits fins du visage, optimisant ainsi son potentiel pour diverses applications telles que les avatars numériques personnalisés, le contenu éducatif en ligne et le service client numérique spécifique à une marque. Il se compose d'un module d'édition de l'espace des caractéristiques d'image qui extrait les caractéristiques sémantiques et détaillées et contrôle leurs propriétés, et d'un module de génération vidéo audio qui fusionne les caractéristiques éditées avec des repères faciaux audioguidés pour piloter un générateur par diffusion. Les résultats expérimentaux démontrent que FaceEditTalker atteint des performances comparables, voire supérieures, aux méthodes existantes en termes de précision de la synchronisation labiale, de qualité vidéo et de contrôlabilité des attributs.