본 논문은 매우 제한적인 훈련 데이터로 인해 어려움을 겪는 소수 샷 클래스 증분 학습(FSCIL) 문제를 해결하기 위해, 사전 훈련된 텍스트-이미지 확산 모델을 고정된 백본으로 사용하는 Diffusion-FSCIL 방법을 제안합니다. 대규모 사전 훈련을 통해 얻은 생성 능력, 다중 스케일 표현, 텍스트 인코더를 통한 표현의 유연성 등 대규모 생성 모델의 장점을 활용하여 FSCIL 문제를 해결하고자 합니다. 여러 보완적인 확산 특징을 추출하여 잠재적 재생(latent replay) 역할을 수행하고, 생성 편향을 방지하기 위해 특징 증류를 약간 활용합니다. 고정된 백본 사용, 최소한의 훈련 가능한 구성 요소, 여러 특징 추출의 일괄 처리를 통해 효율성을 달성합니다. CUB-200, miniImageNet, CIFAR-100 데이터셋에서의 실험 결과, Diffusion-FSCIL은 기존 최고 성능 방법들을 능가하며 이전에 학습된 클래스에 대한 성능을 유지하면서 새로운 클래스에도 효과적으로 적응함을 보여줍니다.