Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment

Created by
  • Haebom

저자

Zongcai Du, Guilin Deng, Xiaofeng Guo, Xin Gao, Linke Li, Kaichang Cheng, Fubo Han, Siyu Yang, Peng Liu, Pan Zhong, Qiang Fu

개요

확산 기반의 노래 음성 합성(SVS) 분야의 발전에 따라 데이터 부족과 모델 확장성의 한계가 존재한다. 본 논문에서는 LLM으로 생성된 다양한 가사와 고정된 멜로디를 결합하여 소규모의 인간 노래 녹음 세트를 구축하고, 멜로디별 모델을 훈련하여 500시간 이상의 고품질 중국어 노래 데이터를 합성하는 2단계 파이프라인을 제안한다. 이를 바탕으로 RoPE 및 qk-norm을 사용하고 깊이, 너비, 해상도를 체계적으로 확장하여 향상된 충실도를 제공하는 Diffusion Transformer인 DiTSinger를 제안한다. 또한, 음소 수준의 지속 시간 레이블 없이 문자 수준 범위 내에서 음소-음향 어텐션을 제한하는 암시적 정렬 메커니즘을 설계하여, 잡음이 많거나 불확실한 정렬에서도 견고성을 향상시킨다.

시사점, 한계점

시사점:
데이터 희소성 문제를 해결하기 위해 LLM과 결합한 새로운 데이터 생성 방식 제시
확장성, 정렬, 충실도를 개선한 SVS 모델 DiTSinger 개발
음소 수준의 지속 시간 레이블 없이도 모델을 훈련할 수 있는 암시적 정렬 메커니즘 설계
500시간 이상의 고품질 중국어 노래 데이터를 합성하여 SVS의 성능 향상
한계점:
구체적인 모델 구조 및 파라미터에 대한 자세한 정보 부족
제안된 방법의 일반화 가능성에 대한 추가 연구 필요
다양한 언어 및 스타일의 노래 데이터에 대한 평가 필요
LLM에 의존적인 데이터 생성 방식의 한계점 (LLM 성능에 종속)
👍