본 논문은 확산 모델의 느린 추론 속도와 복잡한 네트워크 구조 문제를 해결하기 위해, 시간적 및 구조적 수준의 중복성을 동시에 최적화하는 새로운 훈련 없는 방법인 CacheQuant를 제안합니다. CacheQuant는 동적 계획법을 사용하여 최적의 캐싱 스케줄을 결정하고, 캐싱과 양자화의 특성을 고려하여 오류를 최소화합니다. 또한, 단계별 분리된 오류 수정을 통해 누적 오류를 완화합니다. Stable Diffusion을 MS-COCO 데이터셋에 적용한 실험 결과, CacheQuant는 5.18배의 속도 향상과 4배의 압축률을 달성하면서 CLIP 점수는 0.02만큼 감소하는 결과를 보였습니다.