Este artículo presenta el framework FaceEditTalker, que integra la edición de atributos faciales en la generación de rostros parlantes basada en audio. A diferencia de estudios previos centrados en la sincronización labial y la expresión emocional, FaceEditTalker ajusta con flexibilidad atributos visuales como el peinado, los accesorios y los rasgos faciales finos, lo que aumenta su potencial para diversas aplicaciones, como avatares digitales personalizados, contenido educativo en línea y atención al cliente digital específica para cada marca. Consta de un módulo de edición del espacio de características de la imagen que extrae características semánticas y detalladas y controla sus propiedades, y un módulo de generación de vídeo basado en audio que fusiona los rasgos editados con puntos de referencia faciales guiados por audio para impulsar un generador basado en difusión. Los resultados experimentales demuestran que FaceEditTalker alcanza un rendimiento comparable o superior al de los métodos existentes en cuanto a precisión de sincronización labial, calidad de vídeo y control de atributos.