Pixel diffusion은 픽셀 공간에서 이미지를 직접 생성하는 것을 목표로 하며, 두 단계의 잠재 확산 모델의 VAE 한계를 피하여 더 높은 모델 용량을 제공합니다. 기존 픽셀 확산 모델은 단일 확산 변환기(DiT) 내에서 고주파 신호와 저주파 의미론을 모두 모델링하여 훈련 및 추론 속도가 느립니다. 본 논문에서는 고주파와 저주파 성분의 생성을 분리하여 보다 효율적인 픽셀 확산 패러다임을 제안합니다. 경량 픽셀 디코더를 사용하여 DiT의 의미론적 지침에 따라 고주파 세부 정보를 생성합니다. 이를 통해 DiT는 저주파 의미론 모델링에 특화될 수 있습니다. 또한 시각적으로 두드러진 주파수를 강조하고 중요하지 않은 주파수를 억제하는 주파수 인식 흐름 매칭 손실을 도입했습니다. ImageNet에서 FID 1.62(256x256) 및 2.22(512x512)를 달성하여 픽셀 확산 모델 중 뛰어난 성능을 보이며, 잠재 확산 방법과의 격차를 줄였습니다. 또한 사전 훈련된 텍스트-이미지 모델은 시스템 수준 비교에서 GenEval에서 0.86의 선두를 차지했습니다.