Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study

Created by
  • Haebom

作者

Xiaoran Fan, Zhichao Sun, Yangfan Gao, Jingfei Xiong, Hang Yan, Yifei Cao, Jiajun Sun, Shuo Li, Zhihao Zhang, Zhiheng Xi, Yuhao Zhou, Senjie Jin, Changhao Jiang, Junjie Ye, Ming Zhang, Run Demei Yan, Shaokang Dong, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

概要

本論文は、音声言語モデル(SLM)における音声トルクナイザー設計の役割を体系的に調査し、音声とテキストとの間の効果的なクロスモーダルアラインメントと高品質音声生成のための改善策を提示します。 LLM中心のSLMに音声ヘッドと話者のモデリングを追加し、結合型、半結合型、完全非結合型音声トルクナイザを比較分析し、非結合型トルクナイジングがアライメントと合成品質を大幅に向上させることを発見しました。さらに、音声とテキストとの間の情報密度の不一致の問題を解決するために、マルチトークン予測(MTP)を導入してデコード速度を最大12倍に向上させ、単語エラー率を6.07%から3.01%に大幅に減少させました。最後に、話者認識生成パラダイムを提案し、さまざまな話者アイデンティティを持つ大規模な役割劇知識QAベンチマークであるRoleTriviaQAを紹介し、知識理解と話者一貫性を向上させました。

Takeaways、Limitations

Takeaways:
非結合型音声トルクナイザがSLMの音声とテキストの整列と合成品質の向上に有効であることを実証
マルチトークン予測(MTP)を介してSLMのデコード速度を大幅に向上させ、ワードエラーレートを下げます。
話者認識の生成パラダイムとRoleTriviaQAベンチマークによる知識の理解と話者の一貫性の向上
Limitations:
RoleTriviaQAベンチマークの規模と多様性の追加検証が必要です。
提案された方法の他のSLMアーキテクチャとデータセットの一般化性能評価が必要です。
MTPの計算複雑さとメモリ使用量の追加分析が必要です。
👍