본 논문은 데이터 부족 문제와 라벨링 비용 절감을 위해 생성적 확산 모델을 이용하여 합성 학습 데이터를 생성하는 Text-Conditioned Knowledge Recycling (TCKR) 파이프라인을 제안합니다. TCKR은 동적 이미지 캡션 생성, 매개변수 효율적인 확산 모델 미세 조정, 생성적 지식 증류 기술을 결합하여 이미지 분류에 맞춤화된 합성 데이터셋을 생성합니다. 10개의 다양한 이미지 분류 벤치마크에서의 평가 결과, TCKR 생성 데이터로만 학습된 모델이 실제 이미지로 학습된 모델과 동등하거나 뛰어넘는 분류 정확도를 달성함을 보여줍니다. 또한, 합성 데이터로 학습된 모델은 멤버십 추론 공격에 대한 취약성이 크게 감소하여 개인 정보 보호 특성이 향상됨을 확인하였습니다. 이는 고품질 합성 데이터가 실제 데이터를 효과적으로 대체하여 성능과 개인 정보 보호라는 두 마리 토끼를 잡을 수 있음을 시사합니다. 코드와 학습된 모델은 공개 저장소에서 이용 가능합니다.