Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
작성자
Haebom
카테고리
비어 있음
저자
Zhen Ye, Xinfa Zhu, Chi-Min Chan, Xinsheng Wang, Xu Tan, Jiahe Lei, Yi Peng, Haohe Liu, Yizhu Jin, Zheqi Dai, Hongzhan Lin, Jianyi Chen, Xingjian Du, Liumeng Xue, Yunlin Chen, Zhifei Li, Lei Xie, Qiuqiang Kong, Yike Guo, Wei Xue
개요
본 논문은 대규모 언어 모델(LLM) 기반의 음성합성 시스템에서 훈련 시간 및 추론 시간 계산의 확장성을 탐구합니다. 기존의 다단계 음성합성 시스템과 달리, 단일 레이어 벡터 양자화(VQ) 코덱과 단일 Transformer 아키텍처를 사용하는 간단한 프레임워크인 Llasa를 제안합니다. Llasa는 Llama와 같은 표준 LLM과 완벽하게 호환되도록 설계되었으며, 훈련 시간 계산 확장을 통해 합성 음성의 자연스러움 향상 및 복잡하고 정확한 운율 패턴 생성이 가능함을 실험적으로 보여줍니다. 추론 시간 계산 확장에는 음성 이해 모델을 검증자로 활용하여 샘플링 모드를 특정 검증자의 선호도에 맞춰 조정함으로써 감정 표현, 음색 일관성 및 콘텐츠 정확도를 향상시킵니다. 1B, 3B, 8B 크기의 TTS 모델과 코덱 모델의 체크포인트 및 훈련 코드를 공개합니다.
시사점, 한계점
•
시사점:
◦
LLM 기반 단일 아키텍처 음성합성 시스템(Llasa)을 제시하여 모델 확장 및 관리의 효율성을 높였습니다.
◦
훈련 시간 및 추론 시간 계산 확장이 음성합성 품질(자연스러움, 운율, 감정 표현, 음색 일관성, 콘텐츠 정확도) 향상에 효과적임을 실험적으로 증명했습니다.