Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation

Created by
  • Haebom

저자

Keunwoo Choi, Seungheon Doh, Juhan Nam

개요

본 논문은 에이전트 기반 데이터 파이프라인을 통해 생성된 멀티모달 대화형 음악 추천을 위한 합성 데이터셋 TalkPlayData 2를 제시한다. 이 파이프라인에서는 다양한 역할을 가진 여러 대규모 언어 모델(LLM) 에이전트가 전문적인 프롬프트와 정보에 대한 접근 권한을 가지고 생성되며, 대화 데이터는 Listener LLM과 Recsys LLM 간의 대화를 기록하여 얻는다. 다양한 대화 시나리오를 위해, 각 대화에서 Listener LLM은 미세 조정된 대화 목표에 따라 조건화된다. 마지막으로, 모든 LLM은 오디오 및 이미지를 포함한 멀티모달 방식을 사용하며, 멀티모달 추천 및 대화 시뮬레이션을 가능하게 한다. LLM 기반 평가 및 주관적 평가 실험에서 TalkPlayData 2는 음악을 위한 생성적 추천 모델 훈련과 관련된 다양한 측면에서 목표를 달성했다.

시사점, 한계점

시사점:
멀티모달 대화형 음악 추천을 위한 새로운 합성 데이터셋 제공
에이전트 기반 데이터 파이프라인을 활용하여 다양한 대화 시나리오 생성
오디오 및 이미지를 포함하는 멀티모달 LLM 사용
생성적 추천 모델 훈련을 위한 데이터셋의 유효성 입증
한계점:
구체적인 한계점은 논문 초록에 명시되지 않음.
데이터셋의 품질 및 다양성 평가에 대한 추가 정보 필요.
파이프라인의 효율성 및 확장성에 대한 추가 정보 필요.
👍