Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS
Author
Haebom
Category
Empty
저자
Deokjin Seo, Gangin Park, Kihyun Nam
💡 개요
이 논문은 사전 학습된 자기회귀 TTS 디코더를 블록-확산 디코더로 미세 조정하여 병렬 토큰 생성을 가능하게 하는 제로샷 TTS 모델인 Chatterbox-Flash를 제안합니다. 이 모델은 이산 음성 토큰의 긴 꼬리 분포로 인한 품질 저하 문제를 해결하기 위해 추론 시점 기술인 사전 보정 점수 산출과 조기 디코딩 스케줄을 도입했습니다. Chatterbox-Flash는 표준 벤치마크에서 고품질 합성을 달성하며, 스트리밍 추론을 지원합니다.
🔑 시사점 및 한계
•
블록 확산 기반 TTS에서 이산 음성 토큰의 분포 특성을 고려한 새로운 추론 기법(사전 보정 점수 산출, 조기 디코딩 스케줄)을 통해 성능 저하를 효과적으로 완화했습니다.
•
기존 자기회귀 모델에 필적하는 합성 품질을 유지하면서도, 병렬 처리를 통해 실시간 추론 성능(TTFP, RTF)을 크게 개선하여 스트리밍 TTS에 적합함을 입증했습니다.
•
제안된 기법들이 아키텍처 수정 없이 추론 시점에 적용 가능하여 기존 모델과의 호환성이 높습니다.
•
모델의 일반화 성능 및 다양한 언어 환경에서의 성능 검증이 추가적으로 필요할 수 있습니다.