本文旨在解决现有文本转音频 (T2A) 生成方法的局限性。由于对齐的音频文本数据量有限,这些方法难以处理具有精确时间控制的复杂文本提示(例如,“猫头鹰鸣叫,时间间隔为 2.4 秒至 5.2 秒”)。尽管先前的研究尝试使用数据增强或时间条件作为模型输入来生成 10 秒时长、受时间控制的 T2A,但合成质量仍然有限。在本文中,我们提出了 FreeAudio,这是一个新颖的、无需训练、受时间控制的 T2A 框架,它是第一个能够生成具有时间控制的长时长 T2A 的框架,例如“猫头鹰鸣叫,时间间隔为 2.4 秒至 5.2 秒,蟋蟀鸣叫,时间间隔为 0 秒至 24 秒”。FreeAudio 利用 LLM 规划不重叠的时间窗口,并根据输入文本和时间提示,使用增强的自然语言描述重新捕获每个窗口。此外,我们引入了可分离和聚合注意力控制来实现精确的时间控制,引入了上下文潜在构建来实现局部平滑度,并引入了参考指导来实现全局一致性。实验结果表明,FreeAudio 在无需训练的方法中实现了最佳的时间控制 T2A 合成质量,同时其性能也与基于训练的方法相当。此外,它还展现出了与基于训练的 Stable Audio 相当的长期生成质量,为时间控制的长期 T2A 合成铺平了道路。