Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

Created by
  • Haebom

作者

Duojia Li, Shenghui Lu, Hongchen Pan, Zongyi Zhan, Qingyang Hong, Lin Li

概要

本論文は,リアルタイム生成音声改善のための多段階推論のボトルネックを解くMeanFlowSEモデルを提案する。従来の流量と拡散ベースのシステムが瞬時速度場を学習し、繰り返し常微分方程式(ODE)ソルバーに依存するのとは異なり、MeanFlowSEは軌跡に沿った有限区間の平均速度を学習する条件付き生成モデルです。ヤコビアン - ベクトル積(JVP)を使用してMeanFlow恒等式を実装し、瞬間的なフィールド制約と一貫性を維持しながら、有限区間の変位を直接監督するローカルトレーニング目標を導きます。推論すると、MeanFlowSEは逆時間変位を介してシングルステップ生成を実行し、マルチステップソルバーを必要としません。オプションで、数段階のバリエーションで追加の改善を提供できます。 VoiceBank-DEMANDデータセットでは、シングルステップモデルは、マルチレベルリファレンスモデルよりもはるかに低い計算コストで、強力な明瞭性、忠実度、および知覚品質を達成します。この方法は、知識蒸留や外部教師なしで効率的で高忠実度のリアルタイム生成音声強化フレームワークを提供し、ソースコードが公開されています。

Takeaways、Limitations

Takeaways:
リアルタイム生成音声向上のための計算コストを大幅に削減。
多段階推論プロセスを単一段階に簡素化することで効率を向上
知識蒸留や外部教師なしで高性能を達成。
高い明瞭性、忠実度、知覚品質を維持しながらリアルタイム処理可能。
オープンソースで公開され、アクセシビリティ向上。
Limitations:
VoiceBank-DEMANDデータセットのパフォーマンスのみが提示され、他のデータセットの一般化パフォーマンスは追加の研究が必要です。
シングルステップモデルのパフォーマンス限界を補うために、いくつかのステップバリアントのパフォーマンス向上の程度をさらに分析する必要があります。
実際の環境の様々なノイズに対するロバースト性評価が不足。
👍