Anuj Diwan, Zhisheng Zheng, David Harwath, Eunsol Choi
개요
본 논문은 풍부한 스타일 캡션으로 음성 발화를 주석 처리한 대규모 데이터셋인 Paralinguistic Speech Captions (ParaSpeechCaps)를 소개합니다. 기존 대규모 데이터셋은 낮은 음높이, 느린 속도, 큰 소리와 같은 기본 태그만 다루는 반면, ParaSpeechCaps는 성우 수준의 고유 태그와 발화 수준의 상황 태그를 포함하여 총 59개의 스타일 태그를 다룹니다. 기존의 텍스트 및 음성 임베더, 분류기, 오디오 언어 모델을 결합하여 처음으로 풍부한 태그 주석을 자동으로 확장합니다. 342시간의 사람이 직접 라벨링한 데이터(PSC-Base)와 2427시간의 자동 주석 데이터(PSC-Scaled)로 구성됩니다. 개방형 스타일 프롬프트 TTS 모델인 Parler-TTS를 ParaSpeechCaps로 미세 조정하여 기존의 풍부한 스타일 태그 데이터셋을 결합한 최고 성능의 기준 모델보다 스타일 일관성(+7.9% Consistency MOS)과 음성 품질(+15.5% Naturalness MOS)을 향상시켰습니다. 또한 데이터셋 설계 선택에 대한 여러 가지 ablation study를 수행하여 향후 연구를 위한 기반을 마련했습니다. 데이터셋, 모델 및 코드는 https://github.com/ajd12342/paraspeechcaps 에서 공개됩니다.