Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture

Created by
  • Haebom

作者

Kehan Sui, Jinxu Xiang, Fang Jin

概要

この論文は、高品質で自然な歌声を合成するための新しい条件付き拡散モデルであるSmoothSingerを提案します。従来の2段階パイプライン(低品質音声合成後のボコーダによる後処理)方式とは異なり、SmoothSingerは低品質音声を直接改善する統合フレームワークを採用し、ボコーダによる歪みを軽減します。基準音声を利用する二重分岐構造を介してノイズ除去プロセスをガイドし、低周波アップサンプリング経路を追加して、音高の輪郭と長期間のスペクトル依存性をよりよく捉えます。さらに、トレーニング中の時間の不一致の問題を解決するために、基準音声の代わりに低品質の正解音声を使用する。 Opencpopデータセットを使用した実験の結果、SmoothSingerは客観的評価と主観的評価の両方で最先端のパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
既存のSVSモデルのLimitationsであるボコーダの使用による歪みの問題を解決する新しい統合フレームワークの提示。
基準音声を活用した二重分岐構造と低周波アップサンプリング経路により、より自然で表現力のある音声合成が可能。
OpencpopデータセットでSOTAパフォーマンスを達成
時間の不一致問題を解決するための新しい訓練方法を提示します。
Limitations:
Opencpopデータセットへの依存性。他のデータセットへの一般化パフォーマンス検証が必要です。
モデルの計算コストと複雑さに関する議論の欠如
様々な音楽ジャンルとスタイルの歌声合成の性能評価の欠如
👍