자기회귀(AR) 모델은 오랫동안 대규모 언어 모델 분야를 지배해 왔지만, 최근 확산 기반 언어 모델이 유망한 대안으로 떠올랐습니다. 본 논문에서는 데이터가 제한된 환경에서 마스크된 확산 모델을 체계적으로 연구하여, 컴퓨팅 자원은 풍부하지만 데이터가 부족한 경우 확산 모델이 자기회귀 모델보다 훨씬 우수한 성능을 보임을 발견했습니다. 확산 모델은 데이터를 반복적으로 사용하여 검증 손실을 줄이고 하류 작업에서 우수한 성능을 달성합니다. 이러한 장점은 암시적 데이터 증강으로 해석될 수 있는데, 마스크된 확산은 자기회귀 모델의 고정된 왼쪽에서 오른쪽으로의 인수분해와 달리 다양한 토큰 순서 및 예측 작업에 대한 모델 노출을 제공하기 때문입니다. 본 논문에서는 확산 모델에 대한 새로운 스케일링 법칙을 발견하고 확산이 자기회귀 모델을 능가하기 시작하는 임계 컴퓨팅 한계에 대한 폐쇄형 표현식을 도출했습니다. 이러한 결과는 데이터가 아닌 컴퓨팅 자원이 병목 현상일 때 확산 모델이 표준 자기회귀 패러다임에 대한 매력적인 대안임을 시사합니다.