Jee-weon Jung, Wangyou Zhang, Soumi Maiti, Yihan Wu, Xin Wang, Ji-Hoon Kim, Yuta Matsunaga, Seyun Um, Jinchuan Tian, Hye-jin Shim, Nicholas Evans, Joon Son Chung, Shinnosuke Takamichi, Shinji Watanabe
개요
본 논문은 기존의 녹음 환경이 제한적인 스튜디오 품질 음성 데이터에 의존하는 Text-to-Speech (TTS) 시스템의 한계를 극복하고자, 실제 환경의 데이터를 활용하는 noisy-TTS training에 초점을 맞추고 있습니다. 데이터 부족 문제를 해결하기 위해 VoxCeleb1 데이터셋을 기반으로, 자동화된 파이프라인을 통해 생성된 새로운 TTS In the Wild (TITW) 데이터셋을 제시합니다. TITW 데이터셋은 raw VoxCeleb1 데이터를 전사, 분할, 선택하여 만든 TITW-Hard와, DNSMOS 기반의 추가적인 향상 및 데이터 선택 과정을 거친 TITW-Easy 두 가지 학습 세트로 구성됩니다. 실험 결과, 최첨단 TTS 모델은 TITW-Easy 데이터셋으로 3.0 UTMOS 점수를 상회하는 성능을 달성했지만, TITW-Hard 데이터셋에서는 2.8 UTMOS 점수 미만으로 어려움을 보였습니다.
시사점, 한계점
•
시사점:
◦
실제 환경의 음성 데이터를 활용한 noisy-TTS training에 적합한 대규모 공개 데이터셋 TITW를 제공합니다.
◦
TITW 데이터셋을 통해 다양한 품질의 음성 데이터를 활용한 TTS 모델 성능 평가가 가능해졌습니다.
◦
TITW-Easy와 TITW-Hard의 성능 차이는 noisy-TTS 모델 개발 및 성능 향상을 위한 중요한 지표를 제공합니다.
•
한계점:
◦
TITW 데이터셋은 VoxCeleb1 데이터셋을 기반으로 생성되었으므로, 데이터셋의 다양성에 한계가 있을 수 있습니다.
◦
TITW-Hard 데이터셋의 낮은 UTMOS 점수는 실제 환경의 다양한 잡음과 음질 저하에 대한 TTS 모델의 취약성을 보여줍니다. 더욱 강건한 모델 개발이 필요합니다.