Bài báo này tập trung vào việc căn chỉnh giọng nói thành văn bản, một yếu tố quan trọng trong các mô hình văn bản thành giọng nói (TTS) dựa trên mạng nơ-ron. Các mô hình TTS tự hồi quy thường học căn chỉnh trực tuyến bằng cơ chế chú ý, trong khi các mô hình TTS đầu cuối không tự hồi quy dựa trên các khoảng thời gian được trích xuất từ các nguồn bên ngoài. Trong bài báo này, chúng tôi đề xuất một khuôn khổ dự đoán khoảng thời gian mới có thể cung cấp các phân phối khoảng thời gian ở cấp độ âm vị đầy hứa hẹn từ văn bản cho trước. Kết quả thực nghiệm chứng minh rằng mô hình khoảng thời gian được đề xuất chính xác hơn và thích ứng với các điều kiện hơn so với các mô hình cơ sở hiện có. Cụ thể, nó cải thiện đáng kể độ chính xác căn chỉnh ở cấp độ âm vị và giúp các mô hình TTS zero-shot mạnh mẽ hơn trước sự không khớp giữa âm thanh nhắc và âm thanh đầu vào.