Si bien los modelos autorregresivos (AR) han dominado durante mucho tiempo el campo de los modelos lingüísticos a gran escala, los modelos lingüísticos basados en la difusión han surgido recientemente como una alternativa prometedora. En este artículo, estudiamos sistemáticamente los modelos de difusión enmascarados en entornos con restricciones de datos y descubrimos que los modelos de difusión superan significativamente a los modelos autorregresivos cuando los recursos computacionales son abundantes, pero los datos son escasos. Los modelos de difusión utilizan datos repetidamente para reducir la pérdida de validación y lograr un rendimiento superior en tareas posteriores. Esta ventaja puede interpretarse como un aumento implícito de los datos, ya que la difusión enmascarada expone el modelo a diversas ordenaciones de tokens y tareas de predicción, a diferencia de la factorización fija de izquierda a derecha de los modelos autorregresivos. En este artículo, proponemos una nueva ley de escalamiento para los modelos de difusión y derivamos una expresión cerrada para el límite computacional crítico en el que los modelos de difusión superan a los modelos autorregresivos. Estos resultados sugieren que los modelos de difusión representan una alternativa atractiva al paradigma autorregresivo tradicional cuando los recursos computacionales, en lugar de los datos, son el cuello de botella.