본 논문은 사전 훈련된 텍스트-이미지 확산 모델이 훈련 해상도를 넘어 이미지를 생성할 때 나타나는 성능 저하를 해결하기 위해, 추가 훈련 없이 모델의 해상도를 확장하는 효율적인 프레임워크인 ScaleDiff를 제안한다. ScaleDiff는 Neighborhood Patch Attention (NPA), Latent Frequency Mixing (LFM), Structure Guidance를 핵심 요소로 포함하며, U-Net 및 Diffusion Transformer 아키텍처에서 이미지 품질과 추론 속도 측면에서 기존의 훈련 없는 방법론보다 우수한 성능을 달성한다.