Quality-aware Masked Diffusion Transformer for Enhanced Music Generation
Created by
Haebom
저자
Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang, Jianqing Gao, Feng Ma
개요
본 논문은 텍스트를 음악으로 변환하는 텍스트-음악 생성(TTM) 분야에서, 데이터셋의 품질 저하 및 불균형 문제를 해결하기 위한 새로운 접근법을 제시합니다. 저품질 웨이브폼과 낮은 텍스트-오디오 일관성 문제를 가진 기존 오픈소스 데이터셋의 한계를 극복하고자, 품질 인식 학습 패러다임을 제안합니다. 또한 음악 신호의 잠재 공간의 고유한 특성을 활용하여 마스크 확산 트랜스포머(MDT) 모델을 TTM 작업에 적용하여 품질 관리 및 음악성 향상을 도모합니다. 더불어, 저품질 캡션 문제 해결을 위해 3단계 캡션 개선 기법을 도입합니다. MusicCaps 및 Song-Describer Dataset과 같은 벤치마크 데이터셋에서 객관적 및 주관적 지표 모두에서 최첨단(SOTA) 성능을 달성하였으며, 데모 오디오 샘플, 코드 및 사전 학습된 체크포인트를 공개했습니다.