每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

TARO:用于同步视频到音频合成的时间步长自适应表示对齐与起始感知条件

Created by
  • Haebom

作者

Tri Ton、洪志宇、Chang D. Yoo

大纲

本文介绍了一种基于起始感知条件的时间步长自适应表征对齐 (TARO) 框架,用于实现高质量、时间一致的音视频合成。该框架基于流式变换器 (flow-based Transformer),包含两项关键创新:(1) 时间步长自适应表征对齐 (TRA) 通过根据噪声时间表调整对齐强度来动态对齐潜在表征,从而确保平滑演化并提高保真度。(2) 起始感知条件 (OAC) 通过整合起始信号作为音频相关视觉时刻的清晰、基于事件的标记,从而提高与动态视觉事件的同步性。在 VGGSound 和 Landscape 数据集上进行的大量实验表明,TARO 的表现优于先前的方法,Frechet 距离 (FD) 降低了 53%,Frechet 音频距离 (FAD) 降低了 29%,对齐准确率达到 97.19%,展现出卓越的音频质量和同步准确率。

Takeaways, Limitations

Takeaways:
利用基于流的变压器,它通过稳定的学习和持续的转换提供改进的同步和音频质量。
通过使用时间步自适应表示对齐 (TRA) 动态对齐潜在表示来提高音频保真度。
利用起始感知条件 (OAC) 改善与视觉事件的同步。
它在 VGGSound 和 Landscape 数据集上的表现优于现有方法。
Limitations:
论文中未指定Limitations。(摘要中未确认Limitations。)
👍