본 논문은 합성곱 확산 모델에서 창의성에 대한 해석 가능하고 예측 가능한 분석적 이론을 제시합니다. 점수 매칭 확산 모델은 훈련 데이터에서 멀리 떨어진 매우 독창적인 이미지를 생성할 수 있지만, 최적 점수 매칭 이론은 이러한 모델이 훈련 예제만 생성할 수 있어야 한다고 제안합니다. 이러한 이론과 실험의 차이를 해결하기 위해, 국소성과 등변성이라는 두 가지 간단한 귀납적 편향을 확인합니다. 이러한 편향은 최적 점수 매칭을 방지함으로써 조합적 창의성의 형태를 유도하고, 완전히 분석적이며 기계적으로 완전히 해석 가능한 국소 점수(LS) 및 등변 국소 점수(ELS) 기계를 생성합니다. 단일 시간 의존적 하이퍼파라미터를 보정한 후, 훈련된 합성곱 전용 확산 모델(ResNet 및 U-Net과 같은)의 출력을 높은 정확도로 정량적으로 예측할 수 있습니다(CIFAR10, FashionMNIST, MNIST 및 CelebA에 대한 최고 모델의 중간 $r^2$는 0.95, 0.94, 0.94, 0.96). 이 모델은 확산 모델이 다양한 크기와 이미지 위치에서 서로 다른 국소 훈련 세트 패치를 혼합하고 일치시킴으로써 기하급수적으로 많은 새로운 이미지를 생성하는 국소적으로 일관된 패치 모자이크 메커니즘을 보여줍니다. 또한, 본 이론은 사전 훈련된 자기 주의력 기반 U-Net의 출력을 부분적으로 예측하여(CIFAR10에서 중간 $r^2$ ~ 0.77), 국소 패치 모자이크에서 의미적 일관성을 추출하는 데 주의력의 흥미로운 역할을 보여줍니다.