본 논문은 스타일 캡션 텍스트-음성 변환(CapTTS) 분야의 발전에 기여하고자, 표준화된 데이터셋 부족과 후속 연구의 제한이라는 문제점을 해결하기 위해 새로운 벤치마크 CapSpeech를 제안합니다. CapSpeech는 CapTTS-SE, AccCapTTS, EmoCapTTS, AgentTTS 등 다양한 CapTTS 관련 작업에 사용될 수 있도록 설계되었으며, 1,000만 개 이상의 기계 주석 오디오-캡션 쌍과 36만 개에 가까운 사람 주석 오디오-캡션 쌍을 포함합니다. AgentTTS 및 CapTTS-SE 작업을 위해 전문 성우와 오디오 엔지니어가 직접 제작한 새로운 데이터셋도 함께 제시합니다. CapSpeech를 기반으로 오토회귀 및 비오토회귀 모델을 사용하여 광범위한 실험을 진행했으며, 다양한 음성 스타일에서 고품질의 명료한 음성 합성을 달성했음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
CapTTS 관련 다양한 작업을 위한 대규모 데이터셋 제공 (CapSpeech).
◦
CapTTS 시스템 개발의 어려움에 대한 통찰력 제공.
◦
다양한 음성 스타일에서 고품질 음성 합성 달성.
◦
AgentTTS 및 CapTTS-SE를 위한 새로운 데이터셋 도입.
•
한계점:
◦
논문 자체에서 언급된 한계점은 구체적으로 제시되지 않음. (Abstract에 명시된 내용이 부족함)