每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Stylus:重新利用稳定扩散实现梅尔谱图上的无训练音乐风格迁移

Created by
  • Haebom

作者

Heehwan Wang、Joonwoo Kwon、Sooyoung Kim、Jungwoo Seo、Shinjae Yoo、Yuewei Lin、Jiook Cha

大纲

本文介绍了 Stylus,这是一个无需训练的框架,用于梅尔声谱图领域的音乐风格迁移,它利用预训练的稳定扩散模型。Stylus 通过注入风格键值特征来操控自注意力机制,同时通过保留源查询来保留音乐结构。为了避免 Griffin-Limm 重构造成的伪影,我们引入了一种相位保持重构策略,并采用了一种受无分类器引导启发的控制方案,用于自适应风格化和多风格混合。实验结果表明,与现有的最先进技术相比,Stylus 无需额外训练即可将内容保留率提高 34.1%,感知质量提高 25.7%。

Takeaways, Limitations

Takeaways:
利用预先训练的模型,无需训练数据即可转移音乐风格。
与现有方法相比,实现更高的内容保留和感知质量。
通过相位保持重建策略和无分类器引导控制来提高性能。
提供高效的音乐个性化和创作工具的潜力。
Limitations:
由于稳定扩散模型中的依赖关系而产生的限制。
根据梅尔频谱图,声音质量有可能下降。
需要评估各种音乐流派的泛化性能。
需要来自实际音乐作曲家的额外主观评价。
👍