जबकि ऑटोरिग्रैसिव (AR) मॉडल लंबे समय से बड़े पैमाने के भाषा मॉडल के क्षेत्र में हावी रहे हैं, प्रसार-आधारित भाषा मॉडल हाल ही में एक आशाजनक विकल्प के रूप में उभरे हैं। इस पत्र में, हम डेटा-विवश वातावरण में मास्क्ड डिफ्यूजन मॉडल का व्यवस्थित रूप से अध्ययन करते हैं और पाते हैं कि जब कम्प्यूटेशनल संसाधन प्रचुर मात्रा में होते हैं, लेकिन डेटा दुर्लभ होता है, तो डिफ्यूजन मॉडल ऑटोरिग्रैसिव मॉडल से काफी बेहतर प्रदर्शन करते हैं। प्रसार मॉडल सत्यापन हानि को कम करने और डाउनस्ट्रीम कार्यों पर बेहतर प्रदर्शन प्राप्त करने के लिए बार-बार डेटा का उपयोग करते हैं। इस लाभ की व्याख्या अंतर्निहित डेटा वृद्धि के रूप में की जा सकती है, क्योंकि मास्क्ड डिफ्यूजन मॉडल को विविध टोकन ऑर्डरिंग और भविष्यवाणी कार्यों के लिए उजागर करता है, जो ऑटोरिग्रैसिव मॉडल के निश्चित बाएं से दाएं कारकीकरण के विपरीत है। ये परिणाम बताते हैं कि जब डेटा के बजाय कम्प्यूटेशनल संसाधन बाधा बनते हैं, तो प्रसार मॉडल पारंपरिक स्वप्रतिगामी प्रतिमान के लिए एक आकर्षक विकल्प का प्रतिनिधित्व करते हैं।