Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VibeVoice Technical Report

Created by
  • Haebom

作者

Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

概要

VibeVoiceは、次のトークン拡散(next-token diffusion)を使用して複数の話者の長時間音声を合成する新しいモデルです。連続データを自己回帰的に潜在ベクトルを生成してモデル化する統合方法である次のトークン拡散を活用します。従来のEncodecモデルより80倍向上したデータ圧縮率を提供する新しい連続音声トルクナイザーを導入し、オーディオ忠実度を維持しながら長時間シーケンス処理の計算効率を大幅に高めました。その結果、VibeVoiceは最大40人の話者を含む最大90分の長時間の音声を合成(64K context windowの長さ)することができ、オープンソースと商用の会話モデルを凌駕するリアルな会話の雰囲気を実現します。

Takeaways、Limitations

Takeaways:
次のトークン拡散に基づいた効率的な長時間多化子音声合成モデルの提示
従来モデルに比べ80倍向上したデータ圧縮率を持つ新しい連続音声トルクナイザー開発。
最大90分の長さの高品質の多話者音声合成が可能です。
オープンソースと商用モデルと比較して改善された会話雰囲気を実現。
Limitations:
論文では、具体的な性能評価指標(例:音質、自然さ)は示されていません。
64Kコンテキストウィンドウの長さ制限による合成可能時間の制約の存在の可能性
4人以上の話者のパフォーマンスは確認されていません。
モデルの訓練データと具体的なアーキテクチャに関する情報の欠如
👍