본 논문은 수십억 개의 파라미터를 가진 거대 확산 모델에서 생성된 이미지에 가장 큰 영향을 미치는 훈련 데이터 샘플을 식별하는 확장 가능한 프레임워크인 DMin (Diffusion Model influence)을 제안합니다. 기존 방법들의 계산적 한계를 극복하기 위해 효율적인 기울기 압축을 활용하여 수백 TB의 저장 용량을 MB 또는 KB 수준으로 줄이고, 상위 k개의 가장 영향력 있는 훈련 샘플을 1초 이내에 검색합니다. 실험 결과 DMin이 영향력 있는 훈련 샘플을 효과적으로 식별하고 계산 및 저장 요구 사항 측면에서 효율적임을 보여줍니다.