ProAV-DiT는 오디오와 비디오의 구조적 불일치와 멀티모달 데이터 처리의 높은 계산 비용 문제를 해결하기 위해 제안된, 효율적이고 동기화된 오디오-비디오 생성 모델입니다. 오디오를 비디오와 유사한 표현으로 사전 처리하여 시공간적 차원을 정렬하고, Multi-scale Dual-stream Spatio-Temporal Autoencoder (MDSA)를 사용하여 두 모달리티를 통합된 잠재 공간에 투영하여 미세한 시공간적 모델링과 의미적 정렬을 가능하게 합니다. 또한, 멀티 스케일 어텐션 메커니즘을 통해 시간적 일관성과 모달리티별 융합을 강화하고, MDSA의 2D 잠재를 3D 잠재 공간에 쌓아 시공간적 확산 트랜스포머를 통해 처리합니다. 이 설계를 통해 고품질 동기화된 오디오-비디오 콘텐츠를 효율적으로 생성하고 계산 오버헤드를 줄입니다.