Stylus: Repurposing Stable Diffusion for Training-Free Music Style Transfer on Mel-Spectrograms
Created by
Haebom
저자
Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Jungwoo Seo, Shinjae Yoo, Yuewei Lin, Jiook Cha
개요
본 논문은 사전 훈련된 Stable Diffusion 모델을 활용하여 멜 스펙트로그램 영역에서 음악 스타일 전이를 수행하는 훈련이 필요 없는 프레임워크인 Stylus를 제시합니다. Stylus는 소스의 쿼리를 유지하여 음악 구조를 보존하면서 스타일 키-밸류 특징을 주입하여 자기 주의 메커니즘을 조작합니다. 그리핀-림 재구성으로 인한 인공물을 피하기 위해 위상 보존 재구성 전략을 도입하고, 조정 가능한 스타일화 및 다중 스타일 혼합을 위해 분류기 없는 안내(classifier-free-guidance)에서 영감을 받은 제어 방식을 채택합니다. 실험 결과, Stylus는 추가 훈련 없이 기존 최첨단 기법보다 콘텐츠 보존율을 34.1%, 지각 품질을 25.7% 향상시켰습니다.