यह शोधपत्र एक अवधारणात्मक रूप से अनुकूलित वीडियो संपीड़न ढाँचा प्रस्तावित करता है जो सशर्त प्रसार मॉडल का लाभ उठाता है, जो मानवीय दृश्य बोध से मेल खाने वाली वीडियो सामग्री के पुनर्निर्माण में उत्कृष्ट है। हम वीडियो संपीड़न को एक सशर्त जनरेटिव कार्य के रूप में पुनर्परिभाषित करते हैं, जहाँ एक जनरेटिव मॉडल विरल लेकिन सूचना-समृद्ध संकेतों से वीडियो का संश्लेषण करता है। हम तीन मुख्य मॉड्यूल प्रस्तुत करते हैं: बहु-कण कंडीशनिंग, जो स्थिर दृश्य संरचना और गतिशील स्थानिक-कालिक संकेतों, दोनों को समाहित करती है; अर्थपूर्ण समृद्धि का त्याग किए बिना कुशल संचरण के लिए डिज़ाइन किया गया एक संपीड़ित निरूपण; और मोडैलिटी ड्रॉपआउट और भूमिका-जागरूक एम्बेडिंग का उपयोग करके बहु-सशर्त प्रशिक्षण, जो एकल मोडैलिटी पर अत्यधिक निर्भरता को रोकता है और सुदृढ़ता को बढ़ाता है। व्यापक प्रयोगों से पता चलता है कि प्रस्तावित विधि, विशेष रूप से उच्च संपीड़न अनुपातों पर, फ्रेचेट वीडियो डिस्टेंस (FVD) और LPIPS जैसे अवधारणात्मक गुणवत्ता मीट्रिक पर पारंपरिक और तंत्रिका कोडेक्स से काफी बेहतर प्रदर्शन करती है।