Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Vocoder-Projected Feature Discriminator

Created by
  • Haebom

作者

高弘孝宏、広嶋圭美香、田中彦、悠藤コンド

概要

本論文は、音声合成(TTS)および音声変換(VC)で高品質の音波を生成するためにメルスペクトログラムなどの音響特性を使用する既存のアプローチの制限を指摘しています。従来の方法では、ボコーダを使用して音響特性を音波に変換し、時間領域で敵対的なトレーニングを適用しますが、音波アップサンプリングのために時間とメモリのオーバーヘッドがかなりあります。これを解決するために、本論文ではボコーダ機能を使用するボコーダ投影特徴弁別器(VPFD)を提案します。事前に訓練された固定ボコーダ機能抽出器とシングルアップサンプリングステップを使用して、音波弁別器と比較したVC性能を達成しながら、トレーニング時間とメモリ消費量をそれぞれ9.6倍、11.4倍減らすことを拡散ベースのVC蒸留実験を通して示します。

Takeaways、Limitations

Takeaways:
ボコーダの特徴を使用した敵対的なトレーニングは、音声合成と音声変換のトレーニング時間とメモリ消費量を大幅に削減できることを示しています。
事前訓練されたボコーダを活用して効率的な音声生成モデルを構築する可能性を提示します。
音波判別器と同様の性能を示すボコーダ投影特徴判別器(VPFD)の効果性を実験的に検証。
Limitations:
提案された方法の性能が特定の拡散ベースのVC蒸留設定に限定される可能性。
他の音声合成および音声変換モデルまたはデータセットの一般化性能に関するさらなる研究が必要です。
事前訓練されたボコーダの性能に依存する可能性があります。
👍