Este artículo se centra en la alineación de voz a texto, un elemento crucial en los modelos de texto a voz (TTS) basados en redes neuronales. Los modelos TTS autorregresivos suelen aprender la alineación en línea mediante un mecanismo de atención, mientras que los modelos TTS no autorregresivos de extremo a extremo se basan en duraciones extraídas de fuentes externas. En este artículo, proponemos un nuevo marco de predicción de duración que puede proporcionar distribuciones prometedoras de duración a nivel de fonema a partir de un texto dado. Los resultados experimentales demuestran que el modelo de duración propuesto es más preciso y adaptable a las condiciones que los modelos de referencia existentes. En concreto, mejora significativamente la precisión de la alineación a nivel de fonema y aumenta la robustez de los modelos TTS de disparo cero ante desajustes entre el mensaje y el audio de entrada.