FMSD-TTS는 티베트어의 세 가지 주요 방언(U-Tsang, Amdo, Kham)에 대한 병렬 음성 말뭉치가 부족한 저자원 언어의 문제를 해결하기 위해 제안된 새로운 few-shot, 다중 화자, 다중 방언 텍스트 음성 변환 프레임워크입니다. 제한된 참조 오디오와 명시적인 방언 레이블을 사용하여 병렬 방언 음성을 합성합니다. 화자-방언 융합 모듈과 Dialect-Specialized Dynamic Routing Network (DSDR-Net)을 통해 방언 간의 미세한 음향 및 언어적 변화를 포착하면서 화자의 정체성을 유지합니다. 객관적 및 주관적 평가를 통해 기준 모델보다 방언 표현력과 화자 유사성이 크게 향상됨을 보여줍니다. 또한, 어려운 음성-음성 방언 변환 작업을 통해 합성된 음성의 품질과 유용성을 검증합니다. 주요 기여는 (1) 티베트어 다중 방언 음성 합성을 위한 새로운 few-shot TTS 시스템, (2) FMSD-TTS에 의해 생성된 대규모 합성 티베트어 음성 말뭉치 공개, (3) 화자 유사성, 방언 일관성 및 오디오 품질에 대한 표준화된 평가를 위한 오픈소스 평가 툴킷입니다.