यह शोधपत्र एक अवधारणात्मक रूप से अनुकूलित वीडियो संपीड़न ढाँचा प्रस्तावित करता है जो सशर्त प्रसार मॉडल का लाभ उठाता है, जो मानवीय दृश्य बोध से मेल खाने वाली वीडियो सामग्री के पुनर्निर्माण में उत्कृष्ट है। हम वीडियो संपीड़न को एक सशर्त जनरेटिव कार्य के रूप में पुनर्परिभाषित करते हैं, जहाँ एक जनरेटिव मॉडल विरल लेकिन सूचना-समृद्ध संकेतों से वीडियो का संश्लेषण करता है। हम तीन मुख्य मॉड्यूल प्रस्तुत करते हैं: बहु-कण कंडीशनिंग, जो स्थिर दृश्य संरचना और गतिशील स्थानिक-कालिक संकेतों, दोनों को समाहित करती है; अर्थपूर्ण समृद्धि का त्याग किए बिना कुशल संचरण के लिए डिज़ाइन किया गया एक संक्षिप्त निरूपण; और एकल मोडैलिटी पर अत्यधिक निर्भरता से बचने और सुदृढ़ता बढ़ाने के लिए मोडैलिटी ड्रॉपआउट और भूमिका-जागरूक एम्बेडिंग का उपयोग करके बहु-सशर्त प्रशिक्षण। व्यापक प्रयोगों से पता चलता है कि प्रस्तावित विधि, विशेष रूप से उच्च संपीड़न अनुपातों पर, फ्रेचेट वीडियो डिस्टेंस (FVD) और LPIPS जैसे अवधारणात्मक गुणवत्ता मानकों पर पारंपरिक और तंत्रिका कोडेक्स, दोनों से काफी बेहतर प्रदर्शन करती है।