En este artículo, comparamos el rendimiento de los modelos de lenguaje autorregresivos (AR) y los modelos de lenguaje basados en difusión en entornos con escasez de datos. Demostramos experimentalmente que, cuando se proporcionan suficientes recursos computacionales en una situación de aprendizaje repetido con datos limitados, el modelo de difusión supera significativamente al modelo autorregresivo. Interpretamos esto como resultado del efecto implícito de aumento de datos obtenido por el modelo de difusión al exponerlo a diversas distribuciones de orden de tokens y tareas de predicción. Además, proponemos una nueva ley de escalamiento para el modelo de difusión y derivamos una fórmula de forma cerrada para calcular la cantidad crítica de computación en la que el modelo de difusión supera al modelo autorregresivo. En conclusión, sugerimos que el modelo de difusión puede ser una alternativa atractiva al modelo autorregresivo en situaciones donde los datos son menos abundantes que los recursos computacionales.