Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProAV-DiT: A Projected Latent Diffusion Transformer for Efficient Synchronized Audio-Video Generation

Created by
  • Haebom
Category
Empty

저자

Jiahui Sun, Weining Wang, Mingzhen Sun, Yirong Yang, Xinxin Zhu, Jing Liu

개요

ProAV-DiT는 오디오와 비디오의 구조적 불일치와 멀티모달 데이터 처리의 높은 계산 비용 문제를 해결하기 위해 제안된, 효율적이고 동기화된 오디오-비디오 생성 모델입니다. 오디오를 비디오와 유사한 표현으로 사전 처리하여 시공간적 차원을 정렬하고, Multi-scale Dual-stream Spatio-Temporal Autoencoder (MDSA)를 사용하여 두 모달리티를 통합된 잠재 공간에 투영하여 미세한 시공간적 모델링과 의미적 정렬을 가능하게 합니다. 또한, 멀티 스케일 어텐션 메커니즘을 통해 시간적 일관성과 모달리티별 융합을 강화하고, MDSA의 2D 잠재를 3D 잠재 공간에 쌓아 시공간적 확산 트랜스포머를 통해 처리합니다. 이 설계를 통해 고품질 동기화된 오디오-비디오 콘텐츠를 효율적으로 생성하고 계산 오버헤드를 줄입니다.

시사점, 한계점

오디오-비디오 생성의 구조적 불일치 문제를 해결하기 위해 오디오를 비디오와 유사한 표현으로 변환하여 시공간 정렬을 달성했습니다.
Multi-scale Dual-stream Spatio-Temporal Autoencoder (MDSA)를 사용하여 두 모달리티를 통합된 잠재 공간에 투영하여 미세한 시공간적 모델링과 의미적 정렬을 수행했습니다.
멀티 스케일 어텐션 메커니즘을 통해 시간적 일관성과 모달리티별 융합을 강화했습니다.
3D 잠재 공간에서 시공간적 확산 트랜스포머를 사용하여 고품질 동기화된 오디오-비디오 콘텐츠를 생성했습니다.
기존 방법 대비 생성 품질과 계산 효율성 모두에서 우수한 성능을 보였습니다.
논문 자체에서 한계점에 대한 언급은 포함되어 있지 않습니다.
👍