基于 LLM 的代码生成有望彻底改变创意编码任务(例如实时编码),因为它允许用户专注于结构主题而非句法细节。在 LLM 的提示下,用户可以考虑各种和弦候选,以更好地实现他们的音乐意图。然而,代码生成模型难以在不直接洞察和弦音频输出的情况下呈现独特且多样化的和弦候选。为了更好地建立和弦候选与生成音频之间的关系,我们研究了和弦与音频嵌入空间之间的映射拓扑结构。虽然我们发现和弦和音频嵌入并非呈现简单的线性关系,但我们构建了一个预测模型来补充这一点,该模型展示了学习嵌入对齐图的能力。给定一个和弦,我们提出了一个模型,该模型可以预测输出音频嵌入并构建和弦-音频嵌入对齐图,以实现音乐上的多样化输出。