この論文では、動く音源を含む1次アンビソニックス(FOA)オーディオを生成できる最初のエンドツーエンドの潜在拡散フレームワークであるSonicMotionを紹介します。従来の生成オーディオモデルはモノラルまたはステレオ形式に限定されており、3D位置情報を正しくキャプチャできないという制限がありましたが、SonicMotionは自然言語プロンプトまたは自然言語プロンプトと空間軌跡パラメータを使用してFOAオーディオを生成します。さらに、静的および動的音源を含む100万以上のFOAキャプションペアで構成される新しいデータセットを構築し、モデルの学習と評価に活用しました。実験の結果、SonicMotionは最先端のセマンティクスアラインメントと知覚品質を達成し、同時に低い空間位置誤差を示した。