SpeechWeave는 고품질 TTS 모델 훈련을 위해 다국어, 도메인별 합성 데이터셋 생성을 자동화하는 파이프라인이다. LLM을 사용하여 텍스트 데이터를 생성하고, 텍스트 정규화 문제를 해결하며, 표준화된 음성을 가진 합성 음성 데이터를 생성한다. 실험 결과는 SpeechWeave가 다양한 언어적, 음성학적 지표에서 기존 방식보다 10-48% 더 다양한 데이터를 생성하며, 약 97%의 정확도로 텍스트를 정규화하고, 스피커 표준화된 음성 오디오를 생성함을 보여준다.