每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

从 360° 空间信息生成可控的视听视点

Created by
  • Haebom

作者

克里斯蒂安·马里诺尼、里卡多·福斯科·格拉马奇奥尼、埃莱奥诺拉·格拉苏奇、达尼洛·科米尼洛

大纲

虽然扩散模型的进步推动了音视频生成领域的发展,但现有方法缺乏在更广阔的360度环境中从特定视点生成内容所需的细粒度控制。本研究提出了一个可控音视频生成框架,首次探索了这一尚未探索的领域。具体而言,我们提出了一个扩散模型,引入了一组源自整个360度空间的稳健条件线索:用于识别感兴趣区域的全景可见性图、用于定义目标视点的基于边界框的编码距离图,以及用于描述整个场景的描述性字幕。通过整合这些控制,我们生成了具有空间感知能力的视点视频和音频,这些视频和音频会受到更广阔、更不可见的环境语境的影响,从而引入了对于逼真且沉浸式的音视频生成至关重要的强大控制能力。

Takeaways, Limitations

我们提出了第一个可控的 360 度空间内即时视听生成的框架。
使用全景可见性地图、基于边界框的有符号距离图和标题等条件信号提供强大的控制能力。
能够创建考虑到更广泛环境背景的沉浸式视听效果。
Takeaways:为现实且可控的视听创作开辟了可能性。
Limitations:论文中没有提到具体的 Limitations。
👍