Sign In

Scaling Rich Style-Prompted Text-to-Speech Datasets

Created by
  • Haebom
Category
Empty

저자

Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi

개요

본 논문은 풍부한 스타일 캡션으로 음성 발화를 주석 처리한 대규모 데이터셋인 Paralinguistic Speech Captions (ParaSpeechCaps)를 소개합니다. 기존 대규모 데이터셋은 낮은 음높이, 느린 속도, 큰 소리와 같은 기본 태그만 다루는 반면, ParaSpeechCaps는 성우 수준의 고유 태그와 발화 수준의 상황 태그를 포함하여 총 59개의 스타일 태그를 다룹니다. 기존의 텍스트 및 음성 임베더, 분류기, 오디오 언어 모델을 결합하여 처음으로 풍부한 태그 주석을 자동으로 확장합니다. 342시간의 사람이 직접 라벨링한 데이터(PSC-Base)와 2427시간의 자동 주석 데이터(PSC-Scaled)로 구성됩니다. 개방형 스타일 프롬프트 TTS 모델인 Parler-TTS를 ParaSpeechCaps로 미세 조정하여 기존의 풍부한 스타일 태그 데이터셋을 결합한 최고 성능의 기준 모델보다 스타일 일관성(+7.9% Consistency MOS)과 음성 품질(+15.5% Naturalness MOS)을 향상시켰습니다. 또한 데이터셋 설계 선택에 대한 여러 가지 ablation study를 수행하여 향후 연구를 위한 기반을 마련했습니다. 데이터셋, 모델 및 코드는 https://github.com/ajd12342/paraspeechcaps 에서 공개됩니다.

시사점, 한계점

시사점:
풍부한 스타일 태그를 포함하는 대규모 음성 데이터셋 ParaSpeechCaps를 제시하여, 스타일 전달이 가능한 음성 합성 모델 개발에 기여.
자동 주석 기법을 통해 기존 소규모 데이터셋의 한계를 극복하고 대규모 데이터셋 구축 가능성 제시.
Parler-TTS 모델의 미세 조정을 통해 스타일 일관성 및 음성 품질 향상을 실험적으로 증명.
공개된 데이터셋, 모델 및 코드를 통해 향후 연구에 대한 기반 마련.
한계점:
자동 주석의 정확도 및 신뢰도에 대한 추가적인 검증 필요.
다양한 언어 및 문화적 배경을 고려한 데이터셋 확장 필요.
특정 스타일 태그에 대한 주석의 불균형 문제 해결 필요.
자동 주석 과정에서 발생할 수 있는 편향성에 대한 분석 및 해결 방안 모색 필요.
👍