본 논문은 공개 인터넷의 합성 데이터 사용 증가가 대규모 언어 모델(LLM) 훈련의 데이터 사용 효율성을 높였지만, 모델 붕괴의 잠재적 위협은 충분히 연구되지 않았다는 점을 지적합니다. 기존 연구는 주로 단일 모델 설정에서 모델 붕괴를 조사하거나 통계적 대용물에만 의존했습니다. 이 연구는 네트워크 수준에서 모델 붕괴를 조사하기 위한 효율적인 프레임워크인 LLM Web Dynamics (LWD)를 제시합니다. 검색 증강 생성(RAG) 데이터베이스를 사용하여 인터넷을 시뮬레이션함으로써 모델 출력의 수렴 패턴을 분석하고, 상호 작용하는 가우시안 혼합 모델과의 유추를 통해 이러한 수렴에 대한 이론적 보장을 제공합니다.