본 논문은 확산 모델(Diffusion Models, DMs)에서 생성된 이미지에 가장 큰 영향을 미치는 훈련 데이터 샘플을 식별하는 문제를 다룬다. 기존 방법들은 계산상의 제한으로 인해 소규모 모델이나 LoRA로 미세 조정된 모델에만 적용 가능했으나, 본 논문에서는 수십억 개의 매개변수를 가진 DMs에 대한 영향력 추정이 가능한 확장 가능한 프레임워크인 DMin을 제안한다. DMin은 효율적인 기울기 압축을 활용하여 저장 요구량을 수백 TB에서 MB 또는 KB 수준으로 줄이고, 상위 k개의 가장 영향력 있는 훈련 샘플을 1초 이내에 검색하면서 성능을 유지한다. 실험 결과, DMin은 영향력 있는 훈련 샘플을 효과적으로 식별하고 계산 및 저장 요구 사항 측면에서 효율적임을 보여준다.