यह पेपर इंटरेक्टिव वीडियो कंटेंट जेनरेशन और मनमाने-लंबाई वाले स्ट्रीमिंग एप्लिकेशन को सपोर्ट करने के लिए द्विदिशीय प्रसार मॉडल पर ऑटोरिग्रैसिव वीडियो मॉडल के फायदों पर केंद्रित है। हम नेक्स्ट-फ़्रेम डिफ़्यूज़न (NFD) प्रस्तुत करते हैं, एक ऑटोरिग्रैसिव डिफ़्यूज़न ट्रांसफ़ॉर्मर जो ब्लॉक-वार कारण ध्यान को एकीकृत करता है ताकि प्रत्येक फ़्रेम के भीतर पुनरावृत्त नमूनाकरण और समानांतर टोकन जेनरेशन के माध्यम से कुशल अनुमान को सक्षम किया जा सके। वास्तविक समय के वीडियो जेनरेशन की चुनौतियों का समाधान करने के लिए, हम कम सैंपलिंग चरणों के साथ कुशल अनुमान को सक्षम करने के लिए वीडियो मॉडल-विशिष्ट स्थिरता आसवन का विस्तार करते हैं, और पूर्वानुमानित सैंपलिंग का प्रस्ताव करते हैं जो इस तथ्य का फायदा उठाता है कि आसन्न फ़्रेम अक्सर एक ही एक्शन इनपुट साझा करते हैं। बड़े पैमाने पर एक्शन-कंडीशनल वीडियो जेनरेशन बेंचमार्क प्रयोगों के माध्यम से, हम प्रदर्शित करते हैं कि NFD दृश्य गुणवत्ता और सैंपलिंग दक्षता के मामले में ऑटोरिग्रैसिव बेसलाइन मॉडल से बेहतर प्रदर्शन करता है, और 310 मिलियन-पैरामीटर मॉडल का उपयोग करके A100 GPU पर 30 फ़्रेम प्रति सेकंड से अधिक पर पहला ऑटोरिग्रैसिव वीडियो जेनरेशन प्राप्त करता है।