每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

FreeAudio:无需训练的时间规划,实现可控的长篇文本转音频生成

Created by
  • Haebom

作者

蒋宇轩、陈泽华、鞠泽谦、李昌、窦伟北、朱军

大纲

本文旨在解决现有文本转音频 (T2A) 生成方法的局限性。由于对齐的音频文本数据量有限,这些方法难以处理具有精确时间控制的复杂文本提示(例如,“猫头鹰鸣叫,时间间隔为 2.4 秒至 5.2 秒”)。尽管先前的研究尝试使用数据增强或时间条件作为模型输入来生成 10 秒时长、受时间控制的 T2A,但合成质量仍然有限。在本文中,我们提出了 FreeAudio,这是一个新颖的、无需训练、受时间控制的 T2A 框架,它是第一个能够生成具有时间控制的长时长 T2A 的框架,例如“猫头鹰鸣叫,时间间隔为 2.4 秒至 5.2 秒,蟋蟀鸣叫,时间间隔为 0 秒至 24 秒”。FreeAudio 利用 LLM 规划不重叠的时间窗口,并根据输入文本和时间提示,使用增强的自然语言描述重新捕获每个窗口。此外,我们引入了可分离和聚合注意力控制来实现精确的时间控制,引入了上下文潜在构建来实现局部平滑度,并引入了参考指导来实现全局一致性。实验结果表明,FreeAudio 在无需训练的方法中实现了最佳的时间控制 T2A 合成质量,同时其性能也与基于训练的方法相当。此外,它还展现出了与基于训练的 Stable Audio 相当的长期生成质量,为时间控制的长期 T2A 合成铺平了道路。

Takeaways,Limitations

Takeaways:
我们提出了 FreeAudio,这是一个新颖的框架,无需训练即可实现高质量的时间控制 T2A 生成。
实现与现有基于训练的方法相当的长期 T2A 生成质量。
提出了精确时间控制的有效方法(单独和聚合注意力控制、上下文潜在构建和参考指导)。
为时间控制的长期 T2A 合成的发展做出贡献。
Limitations:
可能取决于 LLM 的性能。LLM 性能下降可能会影响 FreeAudio 的性能。
可能缺乏对超长音频生成的性能评估。论文中提到的 24 秒可能相对较短。
对于包含各种音效或复杂语音特征的文本,可能需要进一步的性能评估。
👍