Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Training-Free Approach for Music Style Transfer with Latent Diffusion Models

Created by
  • Haebom

저자

Heehwan Wang, Joonwoo Kwon, Sooyoung Kim, Shinjae Yoo, Yuewei Lin, Jiook Cha

개요

본 논문은 사전 훈련된 잠재 확산 모델(LDM)의 자기 주의 계층을 직접 조작하여 음악 스타일 전이를 수행하는 새로운 훈련 없는 프레임워크인 Stylus를 제안합니다. 멜 스펙트로그램 영역에서 작동하는 Stylus는 미세 조정 없이 콘텐츠 오디오의 키와 값 표현을 스타일 참조의 표현으로 대체하여 음악 스타일을 전이합니다. 스타일링 품질과 제어성을 향상시키기 위해 쿼리 보존, CFG에서 영감을 받은 안내 스케일링, 다중 스타일 보간 및 위상 보존 재구성을 통합합니다. 기존 연구에 비해 지각 품질과 구조 보존을 크게 향상시키면서도 경량이고 배포가 용이합니다. 본 연구는 훈련 없이 효율적이고 고충실도이며 해석 가능한 음악 생성을 위한 확산 기반 주의 조작의 잠재력을 강조합니다.

시사점, 한계점

시사점:
사전 훈련된 모델을 활용하여 훈련 데이터 없이 음악 스타일 전이 가능
기존 방법보다 향상된 지각 품질과 구조 보존
경량이고 배포가 용이한 효율적인 프레임워크 제시
쿼리 보존, CFG-inspired guidance scaling 등을 통해 스타일링 품질 및 제어성 향상
확산 기반 주의 조작의 효용성을 보여줌
한계점:
코드 공개는 논문 채택 후
다양한 음악 장르 및 스타일 전이 성능에 대한 추가적인 평가 필요
다른 음악 생성 모델과의 비교 분석 필요
CFG-inspired guidance scaling 등 추가적인 요소들의 성능에 대한 정량적 분석 부족
👍