Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
Created by
Haebom
저자
Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao
개요
본 논문은 다중 뷰 간 잠재 변수 교환 조인트 확산을 통해 매끄럽고 일관성 있는 긴 스펙트럼과 파노라마를 생성하는 모달리티 비의존적이고 효율적인 방법인 Swap Forward (SaFa)를 제안합니다. 기존 조인트 확산 방법에서 발생하는 스펙트럼 기반 오디오 생성의 스펙트럼 에일리어싱 문제를 조사하고, Mel-스펙트럼과 RGB 이미지의 VAE 잠재 표현 비교 분석을 통해 평균 연산으로 인한 스펙트럼 잡음 제거 과정에서 고주파 성분의 과도한 억제로 인한 오류를 확인합니다. 이 문제를 해결하기 위해 인접 뷰의 겹치는 영역에 적용되는 프레임 수준의 양방향 교환인 Self-Loop Latent Swap을 제안하여, 인접 하위 뷰의 단계적으로 차별화된 궤적을 활용하여 고주파 성분을 적응적으로 향상시키고 스펙트럼 왜곡을 방지합니다. 또한, 겹치지 않는 영역에서 전역적인 교차 뷰 일관성을 향상시키기 위해 하위 뷰 확산을 동기화하기 위한 중앙 집중식 기준 궤적을 제공하는 단방향 잠재 변수 교환 연산자인 Reference-Guided Latent Swap을 제안합니다. 교환 시점과 간격을 개선하여 순방향 방식으로 교차 뷰 유사성-다양성 균형을 달성합니다. 정량적 및 정성적 실험을 통해 SaFa가 U-Net 및 DiT 모델을 사용하는 오디오 생성에서 기존 조인트 확산 방법 및 학습 기반 방법보다 성능이 훨씬 뛰어나며, 효과적인 더 긴 길이 적응을 보임을 보여줍니다. 또한 파노라마 생성에도 잘 적용되어 2~20배 빠른 속도와 향상된 모델 일반화 성능을 달성합니다. 더 많은 생성 데모는 https://swapforward.github.io/ 에서 확인할 수 있습니다.