Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models

Created by
  • Haebom

저자

Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel

개요

SpeechWeave는 고품질 TTS 모델 훈련을 위해 다국어, 도메인별 합성 데이터셋 생성을 자동화하는 파이프라인이다. LLM을 사용하여 텍스트 데이터를 생성하고, 텍스트 정규화 문제를 해결하며, 표준화된 음성을 가진 합성 음성 데이터를 생성한다. 실험 결과는 SpeechWeave가 다양한 언어적, 음성학적 지표에서 기존 방식보다 10-48% 더 다양한 데이터를 생성하며, 약 97%의 정확도로 텍스트를 정규화하고, 스피커 표준화된 음성 오디오를 생성함을 보여준다.

시사점, 한계점

시사점:
TTS 모델 훈련을 위한 확장 가능하고 고품질의 데이터 생성 가능.
다양성, 정규화, 음성 일관성 향상.
상업용 TTS 시스템의 대규모 음성 녹음에 대한 실용적인 해결책 제시.
한계점:
논문에 명시된 한계점은 없음. (요약에 나타난 내용 외에는 추가적인 정보 부재)
👍