本論文は、エージェントベースのデータパイプラインを介して生成されたマルチモーダルインタラクティブ音楽推薦のための合成データセットTalkPlayData 2を提示します。このパイプラインでは、さまざまな役割を持つ複数の大規模言語モデル(LLM)エージェントがプロフェッショナルなプロンプトと情報へのアクセス権を持って生成され、会話データはリスナーLLMとRecsys LLMの間の会話を記録することによって得られます。様々な会話シナリオのために、各会話において、リスナーLLMは、微調整された会話目標に従って条件付けされる。最後に、すべてのLLMはオーディオと画像を含むマルチモーダルスキームを使用し、マルチモーダル推奨と会話シミュレーションを可能にします。 LLMベースの評価と主観的評価実験では、TalkPlayData 2は音楽のための生成的推薦モデルトレーニングに関連するさまざまな点で目標を達成しました。