본 논문은 스트리밍 플랫폼에서 방대한 음악 컬렉션의 관련 콘텐츠 관리 및 탐색에 필수적인 음악 유사도 검색을 위한 새로운 크로스-모달 대조 학습 프레임워크를 제시합니다. 기존의 단일 모달 접근 방식이 복잡한 음악적 관계를 포착하는 데 한계를 가지는 문제를 해결하기 위해, 텍스트 설명의 개방적인 특성을 활용하여 음악 유사도 모델링을 안내합니다. 고품질 텍스트-음악 쌍 데이터의 부족 문제를 해결하기 위해, 온라인 스크래핑과 LLM 기반 프롬프팅을 결합한 이중 소스 데이터 획득 방식을 제안하며, 신중하게 설계된 프롬프트를 통해 LLM의 포괄적인 음악 지식을 활용하여 문맥적으로 풍부한 설명을 생성합니다. 광범위한 실험을 통해 제안된 프레임워크가 객관적인 지표, 주관적인 평가 및 Huawei Music 스트리밍 플랫폼에서의 실제 A/B 테스트를 통해 기존 벤치마크보다 성능이 크게 향상됨을 보여줍니다.