Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for \"U-Tsang, Amdo and Kham Speech Dataset Generation

Created by
  • Haebom

저자

Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi

개요

FMSD-TTS는 티베트어의 세 가지 주요 방언(U-Tsang, Amdo, Kham)에 대한 병렬 음성 말뭉치가 부족한 저자원 언어의 문제를 해결하기 위해 제안된 새로운 few-shot, 다중 화자, 다중 방언 텍스트 음성 변환 프레임워크입니다. 제한된 참조 오디오와 명시적인 방언 레이블을 사용하여 병렬 방언 음성을 합성합니다. 화자-방언 융합 모듈과 Dialect-Specialized Dynamic Routing Network (DSDR-Net)을 통해 방언 간의 미세한 음향 및 언어적 변화를 포착하면서 화자의 정체성을 유지합니다. 객관적 및 주관적 평가를 통해 기준 모델보다 방언 표현력과 화자 유사성이 크게 향상됨을 보여줍니다. 또한, 어려운 음성-음성 방언 변환 작업을 통해 합성된 음성의 품질과 유용성을 검증합니다. 주요 기여는 (1) 티베트어 다중 방언 음성 합성을 위한 새로운 few-shot TTS 시스템, (2) FMSD-TTS에 의해 생성된 대규모 합성 티베트어 음성 말뭉치 공개, (3) 화자 유사성, 방언 일관성 및 오디오 품질에 대한 표준화된 평가를 위한 오픈소스 평가 툴킷입니다.

시사점, 한계점

시사점:
저자원 언어인 티베트어의 다중 방언 음성 합성 문제에 대한 효과적인 해결책 제시.
FMSD-TTS를 통해 생성된 대규모 합성 티베트어 음성 말뭉치 공개로 후속 연구에 기여.
오픈소스 평가 툴킷 제공으로 다중 방언 음성 합성 연구의 표준화 및 발전에 기여.
few-shot 학습을 통해 제한된 데이터로도 높은 성능 달성.
한계점:
현재 제공되는 티베트어 말뭉치의 규모 및 품질에 대한 구체적인 정보 부족.
다른 저자원 언어로의 일반화 가능성에 대한 추가적인 연구 필요.
DSDR-Net의 구체적인 설계 및 작동 원리에 대한 자세한 설명 부족.
주관적 평가의 신뢰성 확보를 위한 추가적인 검증 필요.
👍