यह शोधपत्र वास्तविक समय में इंटरैक्टिव डिजिटल मानव वीडियो निर्माण हेतु एक रूपरेखा प्रस्तुत करता है। मौजूदा विधियों की उच्च गणना लागत और सीमित नियंत्रणीयता को ध्यान में रखते हुए, हम एक स्वतःप्रधान वीडियो निर्माण विधि प्रस्तावित करते हैं जो निम्न-विलंबता अनुमान लगाने में सक्षम है। एक वृहत्-स्तरीय भाषा मॉडल (LLM) में न्यूनतम संशोधन के साथ, यह ऑडियो, पोज़ और टेक्स्ट सहित विभिन्न सशर्त एन्कोडिंग स्वीकार करता है, और स्थानिक और अर्थगत रूप से सुसंगत निरूपण आउटपुट करता है जो एक विसरण मॉडल की शोर-निरोधन प्रक्रिया का मार्गदर्शन करते हैं। मॉडल प्रशिक्षण के लिए लगभग 20,000 घंटों का एक वृहत्-स्तरीय वार्तालाप डेटासेट तैयार किया गया है, और स्वतःप्रधान मॉडल के दीर्घकालिक अनुमान भार को प्रभावी ढंग से कम करने के लिए 64x तक संपीड़न अनुपात वाला एक गहन संपीड़न ऑटोएनकोडर प्रस्तुत किया गया है। यह दृष्टिकोण विभिन्न प्रयोगों, जैसे द्वि-मार्गी वार्तालाप, बहुभाषी मानव संश्लेषण, और इंटरैक्टिव विश्व मॉडल, में निम्न विलंबता, उच्च दक्षता और सूक्ष्म बहुविध नियंत्रणीयता प्रदर्शित करता है।