この論文は、ニューラルネットワークベースの音声合成(TTS)モデルの重要な要素である音声テキスト整列に焦点を当てています。自動回帰TTSモデルは通常アテンションメカニズムを使用してオンラインでソートを学習しますが、非自動回帰エンドツーエンドTTSモデルは外部ソースから抽出された期間に依存します。本稿では、特定のテキストから有望な音素レベルの持続時間分布を提供できる新しい持続時間予測フレームワークを提案します。実験の結果、提案された持続時間モデルは、既存の基準モデルと比較してより正確な予測と条件に対する適応力を示しています。特に、音素レベルのアライメント精度を大幅に向上させ、ゼロショットTTSモデルのパフォーマンスをプロンプトオーディオと入力オーディオ間の不一致に対してより強力にします。