虽然扩散模型的进步推动了音视频生成领域的发展,但现有方法缺乏在更广阔的360度环境中从特定视点生成内容所需的细粒度控制。本研究提出了一个可控音视频生成框架,首次探索了这一尚未探索的领域。具体而言,我们提出了一个扩散模型,引入了一组源自整个360度空间的稳健条件线索:用于识别感兴趣区域的全景可见性图、用于定义目标视点的基于边界框的编码距离图,以及用于描述整个场景的描述性字幕。通过整合这些控制,我们生成了具有空间感知能力的视点视频和音频,这些视频和音频会受到更广阔、更不可见的环境语境的影响,从而引入了对于逼真且沉浸式的音视频生成至关重要的强大控制能力。