每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

在音频代码生成中嵌入对齐

Created by
  • Haebom

作者

萨姆·库特利、希伦·马杜、乔治·泰帕尔多斯、马克·桑托鲁西托

大纲

基于 LLM 的代码生成有望彻底改变创意编码任务(例如实时编码),因为它允许用户专注于结构主题而非句法细节。在 LLM 的提示下,用户可以考虑各种和弦候选,以更好地实现他们的音乐意图。然而,代码生成模型难以在不直接洞察和弦音频输出的情况下呈现独特且多样化的和弦候选。为了更好地建立和弦候选与生成音频之间的关系,我们研究了和弦与音频嵌入空间之间的映射拓扑结构。虽然我们发现和弦和音频嵌入并非呈现简单的线性关系,但我们构建了一个预测模型来补充这一点,该模型展示了学习嵌入对齐图的能力。给定一个和弦,我们提出了一个模型,该模型可以预测输出音频嵌入并构建和弦-音频嵌入对齐图,以实现音乐上的多样化输出。

Takeaways, Limitations

Takeaways:通过分析代码和音频嵌入之间的映射拓扑结构,我们提出了提升基于 LLM 的代码生成模型性能的可能性。学习代码到音频嵌入对齐图的预测模型可以实现音乐多样性的代码生成。这为现场编码等创意编码领域开辟了创新的可能性。
Limitations:虽然我们已经证明了代码和音频嵌入之间的关系并非简单的线性关系,但我们缺乏关于学习嵌入对齐图的具体方法和性能的细节。需要进一步研究来评估所提模型的泛化性能及其对各种音乐类型的适用性。此外,还需要在真实的现场编码环境中验证其有效性。
👍