本文介绍了一种基于起始感知条件的时间步长自适应表征对齐 (TARO) 框架,用于实现高质量、时间一致的音视频合成。该框架基于流式变换器 (flow-based Transformer),包含两项关键创新:(1) 时间步长自适应表征对齐 (TRA) 通过根据噪声时间表调整对齐强度来动态对齐潜在表征,从而确保平滑演化并提高保真度。(2) 起始感知条件 (OAC) 通过整合起始信号作为音频相关视觉时刻的清晰、基于事件的标记,从而提高与动态视觉事件的同步性。在 VGGSound 和 Landscape 数据集上进行的大量实验表明,TARO 的表现优于先前的方法,Frechet 距离 (FD) 降低了 53%,Frechet 音频距离 (FAD) 降低了 29%,对齐准确率达到 97.19%,展现出卓越的音频质量和同步准确率。