Sign In

Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

Created by
  • Haebom
Category
Empty

저자

Xinsheng Wang, Mingqi Jiang, Ziyang Ma, Ziyu Zhang, Songxiang Liu, Linqin Li, Zheng Liang, Qixi Zheng, Rui Wang, Xiaoqin Feng, Weizhen Bian, Zhen Ye, Sitong Cheng, Ruibin Yuan, Zhixian Zhao, Xinfa Zhu, Jiahao Pan, Liumeng Xue, Pengcheng Zhu, Yunlin Chen, Zhifei Li, Xie Chen, Lei Xie, Yike Guo, Wei Xue

개요

본 논문은 단일 스트림 음성 코덱인 BiCodec을 기반으로 하는 새로운 제로샷 텍스트 음성 변환(TTS) 시스템인 Spark-TTS를 제안합니다. BiCodec은 음성을 저비트레이트 의미 토큰과 고정 길이 글로벌 토큰의 두 가지 상호 보완적인 토큰 유형으로 분해하여 언어적 내용과 화자 속성을 분리된 형태로 표현합니다. Qwen2.5 LLM과 사고연쇄(CoT) 생성 방식을 활용하여 성별, 말투와 같은 조잡한 제어와 정확한 피치 값, 말하는 속도와 같은 세밀한 조정이 가능합니다. 또한, 제어 가능한 TTS 연구를 위해 10만 시간 분량의 정교하게 큐레이션된 데이터셋인 VoxBox를 소개합니다. 실험 결과, Spark-TTS는 최첨단 제로샷 음성 복제 성능을 달성할 뿐만 아니라 참조 기반 합성의 한계를 뛰어넘는 고도로 사용자 지정 가능한 음성을 생성합니다.

시사점, 한계점

시사점:
단일 스트림 음성 코덱 BiCodec을 사용하여 효율성과 통합 유연성을 향상시킨 제로샷 TTS 시스템을 제시.
저비트레이트 의미 토큰과 고정 길이 글로벌 토큰을 통해 언어적 내용과 화자 속성을 효과적으로 분리.
Qwen2.5 LLM과 사고연쇄(CoT) 방식을 이용하여 조잡한 제어와 세밀한 조정 모두 가능하게 함.
대규모 고품질 데이터셋 VoxBox를 제공하여 제어 가능한 TTS 연구를 활성화.
최첨단 제로샷 음성 복제 및 고도로 사용자 지정 가능한 음성 생성 성능 달성.
한계점:
VoxBox 데이터셋의 구체적인 구성 및 품질에 대한 자세한 설명 부족.
BiCodec의 성능 저하 가능성에 대한 분석 부족.
다른 최첨단 TTS 시스템과의 비교 분석이 더욱 상세하게 필요.
실제 상용화를 위한 추가적인 연구 및 개발 필요.
👍