每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SonicMaster:迈向可控的一体化音乐修复和母带处理

Created by
  • Haebom

作者

Jan Melechovsky、Ambuj Mehrish、Abhinaba Roy、Dorien Herremans

SonicMaster:基于文本的音乐修复和母带制作的统一生成模型

大纲

本文介绍了 SonicMaster,这是首个通过基于文本的控制处理各种音频伪影的统一生成模型,旨在解决在没有专业设备或专业知识的情况下制作的音乐录音中常见的音质问题,例如过度混响、失真、削波、音色不平衡以及立体声像狭窄。SonicMaster 可根据自然语言指令应用特定的增强功能,或以自动模式运行进行常规修复。为了训练该模型,作者构建了 SonicMaster 数据集,这是一个包含降级音轨和高质量音轨的大规模数据集,通过使用属于均衡、动态、混响、振幅和立体声五个增强类别的 19 个降级函数来模拟常见的降级类型。该方法采用流匹配生成训练范式,在文本提示的指导下,学习从降级输入到干净且经过母带处理的版本的音频转换。

Takeaways, Limitations

Takeaways:
我们提出了第一个通过基于文本的控制来解决音频伪影的统一生成模型。
为各种音质问题提供有效的解决方案。
通过客观和主观评价来展示模型性能。
Limitations:
摘要中没有提供有关 Limitations 的具体信息。
👍