Sign In

Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS

Author
  • Haebom
Category
Empty

저자

Deokjin Seo, Gangin Park, Kihyun Nam

💡 개요

이 논문은 사전 학습된 자기회귀 TTS 디코더를 블록-확산 디코더로 미세 조정하여 병렬 토큰 생성을 가능하게 하는 제로샷 TTS 모델인 Chatterbox-Flash를 제안합니다. 이 모델은 이산 음성 토큰의 긴 꼬리 분포로 인한 품질 저하 문제를 해결하기 위해 추론 시점 기술인 사전 보정 점수 산출과 조기 디코딩 스케줄을 도입했습니다. Chatterbox-Flash는 표준 벤치마크에서 고품질 합성을 달성하며, 스트리밍 추론을 지원합니다.

🔑 시사점 및 한계

블록 확산 기반 TTS에서 이산 음성 토큰의 분포 특성을 고려한 새로운 추론 기법(사전 보정 점수 산출, 조기 디코딩 스케줄)을 통해 성능 저하를 효과적으로 완화했습니다.
기존 자기회귀 모델에 필적하는 합성 품질을 유지하면서도, 병렬 처리를 통해 실시간 추론 성능(TTFP, RTF)을 크게 개선하여 스트리밍 TTS에 적합함을 입증했습니다.
제안된 기법들이 아키텍처 수정 없이 추론 시점에 적용 가능하여 기존 모델과의 호환성이 높습니다.
모델의 일반화 성능 및 다양한 언어 환경에서의 성능 검증이 추가적으로 필요할 수 있습니다.
👍