दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

उच्च दक्षता वाले वीडियो संपीड़न के लिए सशर्त वीडियो निर्माण

Created by
  • Haebom

लेखक

फैंगकिउ यी, जिंग्यु जू, जियावेई शाओ, ची झांग, ज़ुएलोंग ली

रूपरेखा

यह शोधपत्र एक अवधारणात्मक रूप से अनुकूलित वीडियो संपीड़न ढाँचा प्रस्तावित करता है जो सशर्त प्रसार मॉडल का लाभ उठाता है, जो मानवीय दृश्य बोध से मेल खाने वाली वीडियो सामग्री के पुनर्निर्माण में उत्कृष्ट है। हम वीडियो संपीड़न को एक सशर्त जनरेटिव कार्य के रूप में पुनर्परिभाषित करते हैं, जहाँ एक जनरेटिव मॉडल विरल लेकिन सूचना-समृद्ध संकेतों से वीडियो का संश्लेषण करता है। हम तीन मुख्य मॉड्यूल प्रस्तुत करते हैं: बहु-कण कंडीशनिंग, जो स्थिर दृश्य संरचना और गतिशील स्थानिक-कालिक संकेतों, दोनों को समाहित करती है; अर्थपूर्ण समृद्धि का त्याग किए बिना कुशल संचरण के लिए डिज़ाइन किया गया एक संक्षिप्त निरूपण; और एकल मोडैलिटी पर अत्यधिक निर्भरता से बचने और सुदृढ़ता बढ़ाने के लिए मोडैलिटी ड्रॉपआउट और भूमिका-जागरूक एम्बेडिंग का उपयोग करके बहु-सशर्त प्रशिक्षण। व्यापक प्रयोगों से पता चलता है कि प्रस्तावित विधि, विशेष रूप से उच्च संपीड़न अनुपातों पर, फ्रेचेट वीडियो डिस्टेंस (FVD) और LPIPS जैसे अवधारणात्मक गुणवत्ता मानकों पर पारंपरिक और तंत्रिका कोडेक्स, दोनों से काफी बेहतर प्रदर्शन करती है।

Takeaways, Limitations

Takeaways:
सशर्त प्रसार मॉडल का उपयोग करते हुए एक नवीन वीडियो संपीड़न ढांचा प्रस्तुत किया गया है।
पारंपरिक और न्यूरल कोडेक्स (FVD और LPIPS पर आधारित) की तुलना में उच्च संपीड़न अनुपात पर बेहतर अवधारणात्मक गुणवत्ता प्राप्त करता है
बहु-कण कंडीशनिंग, कॉम्पैक्ट प्रतिनिधित्व और बहु-स्थिति प्रशिक्षण के माध्यम से कुशल और मजबूत संपीड़न प्रदर्शन प्राप्त किया गया।
Limitations:
प्रस्तावित विधि की कम्प्यूटेशनल जटिलता और मेमोरी आवश्यकताओं के विश्लेषण का अभाव।
विभिन्न वीडियो प्रकारों और सामग्री में सामान्यीकरण प्रदर्शन मूल्यांकन का अभाव।
वास्तविक कार्यान्वयन और अनुप्रयोग के विस्तृत स्पष्टीकरण का अभाव
👍