Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

작성자

Haebom

카테고리

비어 있음

저자

Zhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi Dai, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue

개요

본 논문은 대규모 언어 모델(LLM) 기반의 음성합성 시스템에서 훈련 시간 및 추론 시간 계산의 확장성을 탐구합니다. 기존의 다단계 음성합성 시스템과 달리, 단일 레이어 벡터 양자화(VQ) 코덱과 단일 Transformer 아키텍처를 사용하는 간단한 프레임워크인 Llasa를 제안합니다. Llasa는 Llama와 같은 표준 LLM과 완벽하게 호환되도록 설계되었으며, 훈련 시간 계산 확장을 통해 합성 음성의 자연스러움 향상 및 복잡하고 정확한 운율 패턴 생성이 가능함을 실험적으로 보여줍니다. 추론 시간 계산 확장에는 음성 이해 모델을 검증자로 활용하여 샘플링 모드를 특정 검증자의 선호도에 맞춰 조정함으로써 감정 표현, 음색 일관성 및 콘텐츠 정확도를 향상시킵니다. 1B, 3B, 8B 크기의 TTS 모델과 코덱 모델의 체크포인트 및 훈련 코드를 공개합니다.