Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation
Created by
Haebom
Category
Empty
저자
Max W. Y. Lam, Yijin Xing, Weiya You, Jingcheng Wu, Zongyu Yin, Fuqiang Jiang, Hangyu Liu, Feng Liu, Xingda Li, Wei-Tsung Lu, Hanyu Chen, Tong Feng, Tianwei Zhao, Chien-Hung Liu, Xuchen Song, Yang Li, Yahui Zhou
개요
자동회귀(AR) 모델은 고품질 음악 생성에 탁월한 성능을 보여주지만, 기존의 다음 토큰 예측 방식은 사람의 음악 작곡 과정과 맞지 않아 생성된 음악의 음악성이 저하될 수 있습니다. MusiCoT은 이러한 한계를 극복하기 위해 제안된 새로운 사고연쇄(CoT) 프롬프팅 기법입니다. MusiCoT는 AR 모델이 오디오 토큰을 생성하기 전에 전체 음악 구조를 먼저 개략적으로 설명하도록 함으로써 결과 작곡의 일관성과 창의성을 향상시킵니다. 대조적 언어-오디오 사전 학습(CLAP) 모델을 활용하여 "음악적 사고"의 연쇄를 구축하여 기존 CoT 방법과 달리 MusiCoT를 확장 가능하고 사람이 레이블을 지정한 데이터에 의존하지 않도록 합니다. 또한 MusiCoT는 악기 편곡과 같은 음악 구조에 대한 심층 분석을 가능하게 하고, 가변 길이 오디오 입력을 선택적 스타일 참조로 허용하여 음악 참조를 지원합니다. 이러한 혁신적인 접근 방식은 복사 문제를 효과적으로 해결하여 MusiCoT를 음악 프롬프팅을 위한 중요한 실용적인 방법으로 자리매김합니다. 실험 결과, MusiCoT는 객관적 및 주관적 지표 모두에서 일관되게 우수한 성능을 달성하여 최첨단 생성 모델에 필적하는 음악 품질을 생성하는 것으로 나타났습니다. 생성된 음악 샘플은 https://MusiCoT.github.io/ 에서 확인할 수 있습니다.