Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

Created by
  • Haebom

저자

Tristan Tsoi, Jiajun Deng, Yaolong Ju, Benno Weck, Holger Kirchhoff, Simon Lui

개요

본 논문은 스트리밍 플랫폼에서 대규모 음악 컬렉션의 관련 콘텐츠 관리 및 탐색에 필수적인 음악 유사성 검색을 위한 새로운 크로스-모달 대조 학습 프레임워크를 제시합니다. 기존의 단일 모달 접근 방식이 복잡한 음악적 관계를 포착하는 데 한계가 있다는 점을 해결하기 위해, 본 논문은 텍스트 설명의 개방적인 특성을 활용하여 음악 유사성 모델링을 안내하는 프레임워크를 제안합니다. 고품질 텍스트-음악 쌍 데이터의 부족을 극복하기 위해, 온라인 스크래핑과 LLM 기반 프롬프팅을 결합한 이중 소스 데이터 획득 방식을 도입하여, 신중하게 설계된 프롬프트를 통해 LLM의 포괄적인 음악 지식을 활용하여 맥락이 풍부한 설명을 생성합니다. 광범위한 실험을 통해 제안된 프레임워크가 객관적 지표, 주관적 평가 및 Huawei Music 스트리밍 플랫폼의 실제 A/B 테스트를 통해 기존 벤치마크보다 성능이 크게 향상됨을 보여줍니다.

시사점, 한계점

시사점:
LLM을 활용한 이중 소스 데이터 획득 방식을 통해 고품질 텍스트-음악 쌍 데이터 부족 문제를 효과적으로 해결.
크로스-모달 대조 학습 프레임워크를 통해 기존 단일 모달 접근 방식의 한계를 극복하고 음악 유사성 검색 성능 향상.
객관적 지표, 주관적 평가, 실제 A/B 테스트를 통해 성능 향상을 검증.
한계점:
LLM 기반 프롬프팅의 성능은 프롬프트 설계에 크게 의존하며, 최적의 프롬프트 설계에 대한 추가 연구 필요.
사용된 LLM의 특성에 따라 성능 차이가 발생할 수 있으며, 다양한 LLM에 대한 성능 평가 및 일반화 가능성에 대한 추가 연구 필요.
Huawei Music 플랫폼에 특화된 A/B 테스트 결과이므로 다른 플랫폼으로의 일반화 가능성에 대한 추가 연구 필요.
👍