Los modelos autorregresivos (AR) han dominado durante mucho tiempo el campo de los modelos lingüísticos a gran escala, pero recientemente los modelos lingüísticos basados en la difusión han emergido como una alternativa prometedora. En este artículo, estudiamos sistemáticamente los modelos de difusión enmascarados en entornos con restricciones de datos y descubrimos que los modelos de difusión superan significativamente a los modelos autorregresivos cuando los recursos computacionales son abundantes, pero los datos son escasos. Los modelos de difusión utilizan datos repetidamente para reducir la pérdida de validación y lograr un rendimiento superior en tareas posteriores. Esta ventaja puede interpretarse como un aumento implícito de los datos, ya que la difusión enmascarada proporciona exposición del modelo a diversas ordenaciones de tokens y tareas de predicción, a diferencia de la factorización fija de izquierda a derecha de los modelos autorregresivos. En este artículo, descubrimos nuevas leyes de escalado para los modelos de difusión y derivamos expresiones de forma cerrada para el límite computacional crítico en el que la difusión comienza a superar a los modelos autorregresivos. Estos resultados sugieren que los modelos de difusión son una alternativa atractiva al paradigma autorregresivo estándar cuando los recursos computacionales, y no los datos, son el cuello de botella.