본 논문은 웹 규모의 데이터셋에서 이전 모델이 생성한 데이터를 포함하여 사전 훈련된 생성형 기계 학습 모델에 대해 연구합니다. 기존 연구에서는 합성 데이터로 인해 웹이 압도되면서 발생하는 "모델 붕괴"에 대한 우려를 제기한 반면, 다른 연구에서는 데이터 사용 방식을 관리함으로써 붕괴를 피할 수 있다고 제안했습니다. 본 논문에서는 세 가지 생성 모델 작업 설정(다변량 가우시안 추정, 커널 밀도 추정, 언어 모델 미세 조정)에 걸쳐 세 가지 데이터 사용 방식(훈련 워크플로우)에 대한 실험 결과를 보고하여 붕괴 방지 가능성을 확인합니다. 실험 결과, 순수하게 합성 데이터로 모든 실제 데이터를 대체하는 훈련 워크플로우는 모든 작업 설정에서 모델 붕괴를 겪는다는 것을 확인했습니다. 또한, 합성 데이터를 실제 데이터와 함께 누적하고 모든 데이터를 결합하여 훈련하는 워크플로우에서는 실제 데이터의 비율이 결국 0이 되더라도 모델이 안정적으로 유지되고 테스트 손실이 발산되지 않는다는 것을 확인했습니다. 마지막으로, 실제 데이터와 합성 데이터가 함께 누적되지만 연속적인 사전 훈련 세대는 각 세대마다 고정 크기의 데이터 하위 집합을 사용하도록 제한하는 워크플로우를 고려했습니다. 이 워크플로우에서 테스트 손실 성능의 저하는 폭발적인 것이 아니라 느리고 점진적인 것으로 관찰되었습니다. 이러한 통찰력은 미래의 최첨단 생성 모델이 붕괴될지 번영할지 예측하는 데 특히 중요하며, 합성 데이터의 맥락에 따른 가치를 실험적 및 수학적으로 연구할 수 있는 길을 열어줍니다.