Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation

Created by
  • Haebom

作者

Keunwoo Choi, Seungheon Doh, Juhan Nam

概要

本論文は、エージェントベースのデータパイプラインを介して生成されたマルチモーダルインタラクティブ音楽推薦のための合成データセットTalkPlayData 2を提示します。このパイプラインでは、さまざまな役割を持つ複数の大規模言語モデル(LLM)エージェントがプロフェッショナルなプロンプトと情報へのアクセス権を持って生成され、会話データはリスナーLLMとRecsys LLMの間の会話を記録することによって得られます。様々な会話シナリオのために、各会話において、リスナーLLMは、微調整された会話目標に従って条件付けされる。最後に、すべてのLLMはオーディオと画像を含むマルチモーダルスキームを使用し、マルチモーダル推奨と会話シミュレーションを可能にします。 LLMベースの評価と主観的評価実験では、TalkPlayData 2は音楽のための生成的推薦モデルトレーニングに関連するさまざまな点で目標を達成しました。

Takeaways、Limitations

Takeaways:
マルチモーダルインタラクティブミュージック推奨のための新しい合成データセットを提供
エージェントベースのデータパイプラインを活用してさまざまな会話シナリオを作成する
オーディオと画像を含むマルチモーダルLLMの使用
生成された推奨モデルトレーニングのためのデータセットの有効性を実証
Limitations:
具体的なLimitationsは論文の要約に記載されていません。
データセットの品質と多様性の評価に関する追加情報が必要です。
パイプラインの効率と拡張性に関する追加情報が必要です。
👍