Alors que les modèles autorégressifs (AR) dominent depuis longtemps le domaine des modèles de langage à grande échelle, les modèles de langage basés sur la diffusion sont récemment apparus comme une alternative prometteuse. Dans cet article, nous étudions systématiquement les modèles de diffusion masquée dans des environnements contraints en données et constatons que les modèles de diffusion surpassent nettement les modèles autorégressifs lorsque les ressources de calcul sont abondantes mais les données rares. Les modèles de diffusion utilisent les données de manière répétée pour réduire les pertes de validation et obtenir des performances supérieures sur les tâches en aval. Cet avantage peut être interprété comme une augmentation implicite des données, car la diffusion masquée expose le modèle à divers ordres de jetons et tâches de prédiction, contrairement à la factorisation fixe de gauche à droite des modèles autorégressifs. Dans cet article, nous proposons une nouvelle loi d'échelle pour les modèles de diffusion et dérivons une expression fermée de la limite de calcul critique à laquelle les modèles de diffusion surpassent les modèles autorégressifs. Ces résultats suggèrent que les modèles de diffusion représentent une alternative intéressante au paradigme autorégressif traditionnel lorsque les ressources de calcul, plutôt que les données, constituent le goulot d'étranglement.