본 논문은 잠재 확산 모델에서 고품질 이미지 및 비디오 생성을 위해 잠재 표현을 사용하는 최신 오토인코더의 스펙트럼 분석을 통해 고주파 성분이 확산 합성 과정에 부정적인 영향을 미친다는 사실을 밝혔습니다. 특히 큰 병목 채널 크기를 가진 오토인코더에서 이러한 현상이 두드러집니다. 이 문제를 해결하기 위해, 디코더에서 스케일 등변성을 강제하는 간단한 규제 전략인 스케일 등변성을 제안합니다. 이는 최소한의 코드 변경과 2만 번의 오토인코더 미세 조정 단계만으로 ImageNet-1K $256^2$ 이미지 생성에서 FID를 19% 감소시키고, Kinetics-700 $17 \times 256^2$ 비디오 생성에서 FVD를 최소 44% 감소시키는 등 생성 품질을 크게 향상시킵니다. 소스 코드는 https://github.com/snap-research/diffusability 에서 확인할 수 있습니다.