この論文は、高品質で自然な歌声を合成するための新しい条件付き拡散モデルであるSmoothSingerを提案します。従来の2段階パイプライン(低品質音声合成後のボコーダによる後処理)方式とは異なり、SmoothSingerは低品質音声を直接改善する統合フレームワークを採用し、ボコーダによる歪みを軽減します。基準音声を利用する二重分岐構造を介してノイズ除去プロセスをガイドし、低周波アップサンプリング経路を追加して、音高の輪郭と長期間のスペクトル依存性をよりよく捉えます。さらに、トレーニング中の時間の不一致の問題を解決するために、基準音声の代わりに低品質の正解音声を使用する。 Opencpopデータセットを使用した実験の結果、SmoothSingerは客観的評価と主観的評価の両方で最先端のパフォーマンスを達成しました。