Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
Created by
Haebom
Category
Empty
저자
Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao
개요
본 논문은 다양한 모달리티에 적용 가능한 효율적인 방법인 Swap Forward (SaFa)를 제안합니다. SaFa는 다중 뷰 간 잠재 변수 교환을 통한 결합 확산 모델을 이용하여 매끄럽고 일관성 있는 장 스펙트럼과 파노라마를 생성합니다. 기존 결합 확산 모델에서 스펙트럼 기반 오디오 생성 시 발생하는 스펙트럼 에일리어싱 문제를 조사하고, Mel-스펙트럼과 RGB 이미지의 VAE 잠재 표현 비교 분석을 통해 평균 연산으로 인한 고주파 성분의 과도한 억제가 문제임을 밝힙니다. 이를 해결하기 위해 인접 뷰의 겹치는 영역에 적용되는 프레임 단위의 양방향 교환인 Self-Loop Latent Swap을 제안하여 고주파 성분을 적응적으로 향상시키고 스펙트럼 왜곡을 방지합니다. 또한, 겹치지 않는 영역에서 전역적인 뷰 간 일관성을 향상시키기 위해 하위 뷰 확산을 동기화하기 위한 중앙 집중식 기준 궤적을 제공하는 단방향 잠재 변수 교환 연산자인 Reference-Guided Latent Swap을 제안합니다. 교환 시점과 간격을 조정하여 전방향 방식으로 뷰 간 유사성-다양성 균형을 달성합니다. 정량적 및 정성적 실험을 통해 SaFa가 기존 결합 확산 모델 및 학습 기반 모델보다 오디오 생성에서 U-Net과 DiT 모델 모두에서 훨씬 우수한 성능을 보이며, 효과적인 긴 길이 적응을 보임을 보여줍니다. 또한 파노라마 생성에도 잘 적용되어 2~20배 빠른 속도와 향상된 모델 일반화 성능을 달성합니다. 더 많은 생성 데모는 https://swapforward.github.io/ 에서 확인할 수 있습니다.