본 논문은 데이터가 부족한 상황에서 자기회귀(AR) 언어 모델과 확산 기반 언어 모델의 성능을 비교 분석합니다. 제한된 데이터를 반복적으로 학습하는 환경에서, 충분한 연산 자원이 주어진다면 확산 모델이 자기회귀 모델보다 훨씬 우수한 성능을 보임을 실험적으로 입증합니다. 이는 확산 모델이 토큰 순서와 예측 작업의 다양한 분포를 노출시키는 암시적 데이터 증강 효과 때문이라고 해석하며, 확산 모델의 새로운 스케일링 법칙과 확산 모델이 자기회귀 모델보다 성능이 우수해지는 임계 연산량에 대한 닫힌 형태의 표현식을 제시합니다. 결론적으로 데이터가 연산량보다 병목 현상을 일으키는 경우, 확산 모델이 자기회귀 모델에 대한 매력적인 대안이 될 수 있음을 시사합니다.