Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
개요
VibeVoice는 다음 토큰 확산(next-token diffusion)을 사용하여 여러 화자의 장시간 음성을 합성하는 새로운 모델입니다. 연속 데이터를 자기회귀적으로 잠재 벡터를 생성하여 모델링하는 통합 방법인 다음 토큰 확산을 활용합니다. 기존의 Encodec 모델보다 80배 향상된 데이터 압축률을 제공하는 새로운 연속 음성 토크나이저를 도입하여, 오디오 충실도를 유지하면서 장시간 시퀀스 처리의 계산 효율성을 크게 높였습니다. 결과적으로 VibeVoice는 최대 4명의 화자를 포함하여 최대 90분 길이의 장시간 음성을 합성(64K context window 길이)할 수 있으며, 오픈소스 및 상용 대화 모델을 능가하는 사실적인 대화 분위기를 구현합니다.
시사점, 한계점
•
시사점:
◦
다음 토큰 확산 기반의 효율적인 장시간 다화자 음성 합성 모델 제시.
◦
기존 모델 대비 80배 향상된 데이터 압축률을 가진 새로운 연속 음성 토크나이저 개발.
◦
최대 90분 길이의 고품질 다화자 음성 합성 가능.
◦
오픈소스 및 상용 모델 대비 향상된 대화 분위기 구현.
•
한계점:
◦
논문에서 구체적인 성능 평가 지표(예: 음질, 자연스러움)가 제시되지 않음.
◦
64K context window 길이 제한으로 인한 합성 가능 시간의 제약 존재 가능성.