본 논문은 에이전트 기반 데이터 파이프라인을 통해 생성된 멀티모달 대화형 음악 추천을 위한 합성 데이터셋 TalkPlayData 2를 제시한다. 이 파이프라인에서는 다양한 역할을 가진 여러 대규모 언어 모델(LLM) 에이전트가 전문적인 프롬프트와 정보에 대한 접근 권한을 가지고 생성되며, 대화 데이터는 Listener LLM과 Recsys LLM 간의 대화를 기록하여 얻는다. 다양한 대화 시나리오를 위해, 각 대화에서 Listener LLM은 미세 조정된 대화 목표에 따라 조건화된다. 마지막으로, 모든 LLM은 오디오 및 이미지를 포함한 멀티모달 방식을 사용하며, 멀티모달 추천 및 대화 시뮬레이션을 가능하게 한다. LLM 기반 평가 및 주관적 평가 실험에서 TalkPlayData 2는 음악을 위한 생성적 추천 모델 훈련과 관련된 다양한 측면에서 목표를 달성했다.