Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Generating Moving 3D Soundscapes with Latent Diffusion Models

Created by
  • Haebom

作者

Christian Templin, Yanda Zhu, Hao Wang

概要

この論文では、動く音源を含む1次アンビソニックス(FOA)オーディオを生成できる最初のエンドツーエンドの潜在拡散フレームワークであるSonicMotionを紹介します。従来の生成オーディオモデルはモノラルまたはステレオ形式に限定されており、3D位置情報を正しくキャプチャできないという制限がありましたが、SonicMotionは自然言語プロンプトまたは自然言語プロンプトと空間軌跡パラメータを使用してFOAオーディオを生成します。さらに、静的および動的音源を含む100万以上のFOAキャプションペアで構成される新しいデータセットを構築し、モデルの学習と評価に活用しました。実験の結果、SonicMotionは最先端のセマンティクスアラインメントと知覚品質を達成し、同時に低い空間位置誤差を示した。

Takeaways、Limitations

Takeaways:
動く音源を含むFOAオーディオ生成のための最初のエンドツーエンドの潜在的な拡散フレームワークの提示。
自然言語と空間軌跡パラメータを使用した正確なオーディオ生成。
大規模なFOAオーディオデータセットの構築。
最先端の意味整列と知覚品質、低空間位置誤差を達成。
Limitations:
現在はシミュレートされたデータセットに基づいて学習されているため、実際の環境の多様性を完全に反映できない可能性があります。
モデルの複雑さにより、計算コストが高くなる可能性があります。
より多様で複雑な音響環境を処理するための追加の研究が必要です。
👍