本文介绍了 SonicMaster,这是首个通过基于文本的控制处理各种音频伪影的统一生成模型,旨在解决在没有专业设备或专业知识的情况下制作的音乐录音中常见的音质问题,例如过度混响、失真、削波、音色不平衡以及立体声像狭窄。SonicMaster 可根据自然语言指令应用特定的增强功能,或以自动模式运行进行常规修复。为了训练该模型,作者构建了 SonicMaster 数据集,这是一个包含降级音轨和高质量音轨的大规模数据集,通过使用属于均衡、动态、混响、振幅和立体声五个增强类别的 19 个降级函数来模拟常见的降级类型。该方法采用流匹配生成训练范式,在文本提示的指导下,学习从降级输入到干净且经过母带处理的版本的音频转换。