本論文は、限られた量のソートされたオーディオテキストデータのために正確な時間制御(例えば「Owl hooted at 2.4s-5.2s」)を含む複雑なテキストプロンプト処理を困難にする従来のテキストオーディオ(T2A)生成方法の限界を解決することを提案した。従来の研究は、データ増強または時間条件をモデル入力として使用して、長さ10秒の時間制御T2Aを生成しようとしましたが、合成品質は依然として制限されていました。そこで、本論文では訓練を必要としない新しい時間制御T2AフレームワークであるFreeAudioを提示し、「owl hooted at 2.4s-5.2s and crickets chirping at 0s-24s」のように時間制御が可能な長時間T2A生成を最初に試みた。 FreeAudioはLLMを使用して重複しない時間ウィンドウを計画し、入力テキストと時間プロンプトに基づいて各ウィンドウを改善された自然言語の説明に再キャプションします。また、正確な時間制御のための分離と集約主義の制御、局所的な滑らかさのための文脈的潜在的な構成、およびグローバルな一貫性のための参照ガイドを導入しました。実験の結果、FreeAudioはトレーニングを必要としない方法の中で最先端の時間制御T2A合成品質を達成し、トレーニングベースの方法と同様の性能を示した。また、トレーニングベースのStable Audioと比較できる長時間生成品質を示し、時間制御が可能な長時間T2A合成の道を開いた。