Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LAPS-Diff: A Diffusion-Based Framework for Singing Voice Synthesis With Language Aware Prosody-Style Guided Learning

Created by
  • Haebom
Category
Empty

저자

Sandipan Dhar, Mayank Gupta, Preeti Rao

LAPS-Diff: Language-Aware Pitch and Style-Guided Diffusion Model for Bollywood Hindi Singing Voice Synthesis

개요

본 논문은 확산 모델 기반의 노래 음성 합성(SVS) 분야에서 언어 인지 임베딩과 보컬 스타일 기반 학습 메커니즘을 통합한 LAPS-Diff를 제안합니다. 특히, 자원 제약적인 환경에서 볼리우드 힌두어 노래 스타일에 특화된 모델을 개발했습니다. 힌디어 SVS 데이터셋을 구축하고, 사전 훈련된 언어 모델을 활용하여 가사에 대한 풍부한 표현을 위해 단어 및 음소 수준 임베딩을 추출했습니다. 또한 스타일 인코더와 피치 추출 모델을 통합하여 스타일 및 피치 손실을 계산함으로써, 합성된 노래의 자연스러움과 표현력을 향상시켰습니다. MERT 및 IndicWav2Vec 모델을 사용하여 음악 및 컨텍스트 임베딩을 추출하여 음향 특징 생성 과정을 추가로 개선했습니다. 제한된 데이터셋 환경에서 LAPS-Diff는 기존 SOTA 모델보다 생성된 샘플의 품질을 유의미하게 향상시켰습니다.

시사점, 한계점

시사점:
언어 인지 임베딩과 스타일 가이드 학습을 통해 저자원 환경에서 특정 스타일의 노래 음성 합성 품질을 향상시킴.
볼리우드 힌두어 노래 스타일에 특화된 모델 개발 및 데이터셋 구축을 통해 특정 문화권의 음성 합성 연구에 기여.
다양한 모델(사전 훈련된 언어 모델, 스타일 인코더, 피치 추출 모델, MERT, IndicWav2Vec)을 활용하여 음성 합성 성능을 향상시키는 데 기여.
한계점:
특정 언어(힌디어) 및 음악 스타일(볼리우드)에 국한되어 일반화된 성능을 보장하지 않음.
확산 모델의 계산 복잡성으로 인해 생성 속도가 느릴 수 있음.
데이터 의존성이 높고, 새로운 스타일이나 언어에 적용하기 위해서는 추가적인 데이터셋 구축과 튜닝이 필요함.
👍