यह शोधपत्र बताता है कि बड़े पैमाने पर ट्रांसफ़ॉर्मर-आधारित प्रसार मॉडल का उपयोग करके टेक्स्ट-टू-वीडियो निर्माण में हालिया प्रगति के बावजूद, मौजूदा मॉडल केवल छोटे वीडियो ही उत्पन्न करते हैं और रीयल-टाइम इंटरैक्टिव अनुप्रयोगों में इनकी सीमाएँ हैं। इस शोधपत्र में, हम StreamDiT, एक रीयल-टाइम स्ट्रीमिंग वीडियो निर्माण मॉडल, प्रस्तावित करते हैं। StreamDiT, विभिन्न बफर फ़्रेम विभाजन विधियों का उपयोग करके गतिशील बफ़र्स और मिश्रित शिक्षण के साथ प्रवाह मिलान-आधारित शिक्षण के माध्यम से सामग्री की संगति और छवि गुणवत्ता में सुधार करता है। हम वैरिएशनल टेम्पोरल एम्बेडिंग और विंडोड अटेंशन का उपयोग करके adaLN DiT-आधारित मॉडलिंग को अपनाते हैं, और 4 बिलियन पैरामीटर्स वाले एक StreamDiT मॉडल को प्रशिक्षित करते हैं। इसके अतिरिक्त, हम StreamDiT के लिए अनुकूलित एक बहु-चरण आसवन विधि प्रस्तावित करते हैं, जो प्रत्येक विभाजन अंतराल पर नमूना आसवन करती है और रीयल-टाइम प्रदर्शन (16 FPS, 512p रिज़ॉल्यूशन) प्राप्त करने के लिए फ़ंक्शन मूल्यांकन की संख्या को कम करती है। हम मात्रात्मक संकेतकों और मानवीय मूल्यांकन के माध्यम से प्रदर्शन की पुष्टि करते हैं, और स्ट्रीमिंग निर्माण, इंटरैक्टिव निर्माण और वीडियो-से-वीडियो रूपांतरण जैसे रीयल-टाइम अनुप्रयोगों के लिए इसकी क्षमता का सुझाव देते हैं।