本論文は、音声合成(TTS)および音声変換(VC)で高品質の音波を生成するためにメルスペクトログラムなどの音響特性を使用する既存のアプローチの制限を指摘しています。従来の方法では、ボコーダを使用して音響特性を音波に変換し、時間領域で敵対的なトレーニングを適用しますが、音波アップサンプリングのために時間とメモリのオーバーヘッドがかなりあります。これを解決するために、本論文ではボコーダ機能を使用するボコーダ投影特徴弁別器(VPFD)を提案します。事前に訓練された固定ボコーダ機能抽出器とシングルアップサンプリングステップを使用して、音波弁別器と比較したVC性能を達成しながら、トレーニング時間とメモリ消費量をそれぞれ9.6倍、11.4倍減らすことを拡散ベースのVC蒸留実験を通して示します。