TalkPlayData 2 是一个用于多模态对话音乐推荐的合成数据集,它通过基于代理的数据流水线生成。该流水线生成多个具有不同角色和特定提示的大规模语言模型 (LLM) 代理,并记录 Listener LLM 和 Recsys LLM 之间的对话以获取聊天数据。为了应对多样化的对话场景,每个对话中的 Listener LLM 都以经过微调的对话目标为条件。所有 LLM 都是多模态的,包括音频和图像,从而支持多模态推荐和对话模拟。在 LLM 评判实验和主观评价实验中,TalkPlayData 2 在与训练音乐生成推荐模型相关的各个方面都实现了其目标。