본 논문은 텍스트-이미지(T2I) 확산 모델을 실세계 초고해상도(SR)에 적용한 최근 연구의 성공에도 불구하고, T2I와 SR 목표 간의 근본적인 불일치로 인해 추론 속도와 디테일 충실도 간의 딜레마가 발생하는 문제를 해결하기 위해 제안된 연구이다. 기존 T2I 방법은 다단계 역변환을 통해 일관된 출력을 생성하고, 잠재 공간을 축소하여 생성 복잡성을 줄이는 데 중점을 두는 반면, SR은 저해상도 입력으로부터 대부분의 정보를 보존하면서 고주파수 디테일만 복원하는 데 초점을 맞춘다. 이러한 차이를 해소하기 위해, 논문에서는 더 큰 잠재 공간을 가진 맞춤형 확산 모델에서 증류된 단일 단계 생성 디테일 복원 모델인 GenDR을 제시한다. GenDR은 모델 크기를 늘리지 않고 잠재 공간을 확장하기 위해 표현 정렬을 통해 새로운 SD2.1-VAE16(0.9B)을 훈련하고, 일관된 점수 동일성 증류(CiD)를 제안하여 SR 특정 손실을 점수 증류에 통합함으로써 더 많은 SR 사전 정보를 활용하고 훈련 목표를 정렬한다. 또한, CiDA(CiD with adversarial learning and representation alignment)를 통해 지각 품질을 향상시키고 훈련 속도를 높이며, 효율적인 추론을 위해 파이프라인을 개선한다. 실험 결과, GenDR은 정량적 지표와 시각적 충실도 모두에서 최첨단 성능을 달성함을 보여준다.