DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment
Created by
Haebom
저자
Zongcai Du, Guilin Deng, Xiaofeng Guo, Xin Gao, Linke Li, Kaichang Cheng, Fubo Han, Siyu Yang, Peng Liu, Pan Zhong, Qiang Fu
개요
확산 기반의 노래 음성 합성(SVS) 분야의 발전에 따라 데이터 부족과 모델 확장성의 한계가 존재한다. 본 논문에서는 LLM으로 생성된 다양한 가사와 고정된 멜로디를 결합하여 소규모의 인간 노래 녹음 세트를 구축하고, 멜로디별 모델을 훈련하여 500시간 이상의 고품질 중국어 노래 데이터를 합성하는 2단계 파이프라인을 제안한다. 이를 바탕으로 RoPE 및 qk-norm을 사용하고 깊이, 너비, 해상도를 체계적으로 확장하여 향상된 충실도를 제공하는 Diffusion Transformer인 DiTSinger를 제안한다. 또한, 음소 수준의 지속 시간 레이블 없이 문자 수준 범위 내에서 음소-음향 어텐션을 제한하는 암시적 정렬 메커니즘을 설계하여, 잡음이 많거나 불확실한 정렬에서도 견고성을 향상시킨다.