본 논문은 심층 신경망 학습 시간을 크게 단축하기 위해 대용량 데이터셋을 작고 대표적인 데이터셋으로 압축하는 데이터셋 증류(dataset distillation) 기법에 대해 다룬다. 기존 생성 모델 기반 방법들의 한계점으로, 증류된 데이터셋의 분포가 원본 데이터셋을 충분히 대표하지 못해 하류 검증 정확도가 저하되는 문제를 지적한다. 이를 해결하기 위해, 확산 모델(diffusion model) 기반의 다양성 중심 생성 데이터셋 증류 방법을 제안한다. 자기 적응 메모리(self-adaptive memory)를 도입하여 증류된 데이터셋과 실제 데이터셋 간의 분포 정렬을 평가하고, 정렬 정도에 따라 확산 모델이 더 다양한 데이터셋을 생성하도록 유도한다. 실험 결과, 제안된 방법이 기존 최첨단 방법들을 대부분의 상황에서 능가함을 보여, 데이터셋 증류 작업에 대한 효과를 증명한다.