Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

Created by
  • Haebom
Category
Empty

저자

Zehong Ma, Longhui Wei, Shuai Wang, Shiliang Zhang, Qi Tian

개요

Pixel diffusion은 픽셀 공간에서 이미지를 직접 생성하는 것을 목표로 하며, 두 단계의 잠재 확산 모델의 VAE 한계를 피하여 더 높은 모델 용량을 제공합니다. 기존 픽셀 확산 모델은 단일 확산 변환기(DiT) 내에서 고주파 신호와 저주파 의미론을 모두 모델링하여 훈련 및 추론 속도가 느립니다. 본 논문에서는 고주파와 저주파 성분의 생성을 분리하여 보다 효율적인 픽셀 확산 패러다임을 제안합니다. 경량 픽셀 디코더를 사용하여 DiT의 의미론적 지침에 따라 고주파 세부 정보를 생성합니다. 이를 통해 DiT는 저주파 의미론 모델링에 특화될 수 있습니다. 또한 시각적으로 두드러진 주파수를 강조하고 중요하지 않은 주파수를 억제하는 주파수 인식 흐름 매칭 손실을 도입했습니다. ImageNet에서 FID 1.62(256x256) 및 2.22(512x512)를 달성하여 픽셀 확산 모델 중 뛰어난 성능을 보이며, 잠재 확산 방법과의 격차를 줄였습니다. 또한 사전 훈련된 텍스트-이미지 모델은 시스템 수준 비교에서 GenEval에서 0.86의 선두를 차지했습니다.

시사점, 한계점

픽셀 확산 모델의 효율성 향상: 고주파 및 저주파 성분 분리를 통해 훈련 및 추론 속도 향상.
우수한 이미지 생성 성능: ImageNet에서 뛰어난 FID 점수 달성.
선도적인 텍스트-이미지 모델 성능: GenEval에서 높은 점수 획득.
단일 이미지 해상도에 대한 정보만 제공됨.
모델의 일반화 능력에 대한 추가 정보 부족.
👍