दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

नेक्स्ट-फ्रेम डिफ्यूजन के माध्यम से 30+ FPS पर ट्रांसफॉर्मर के साथ खेलना

Created by
  • Haebom

लेखक

ज़िनले चेंग, तियानयु हे, जियायी जू, जुनलियांग गुओ, डि हे, जियांग बियान

रूपरेखा

यह पेपर इंटरेक्टिव वीडियो कंटेंट जेनरेशन और मनमाने-लंबाई वाले स्ट्रीमिंग एप्लिकेशन को सपोर्ट करने के लिए द्विदिशीय प्रसार मॉडल पर ऑटोरिग्रैसिव वीडियो मॉडल के फायदों पर केंद्रित है। हम नेक्स्ट-फ़्रेम डिफ़्यूज़न (NFD) प्रस्तुत करते हैं, एक ऑटोरिग्रैसिव डिफ़्यूज़न ट्रांसफ़ॉर्मर जो ब्लॉक-वार कारण ध्यान को एकीकृत करता है ताकि प्रत्येक फ़्रेम के भीतर पुनरावृत्त नमूनाकरण और समानांतर टोकन जेनरेशन के माध्यम से कुशल अनुमान को सक्षम किया जा सके। वास्तविक समय के वीडियो जेनरेशन की चुनौतियों का समाधान करने के लिए, हम कम सैंपलिंग चरणों के साथ कुशल अनुमान को सक्षम करने के लिए वीडियो मॉडल-विशिष्ट स्थिरता आसवन का विस्तार करते हैं, और पूर्वानुमानित सैंपलिंग का प्रस्ताव करते हैं जो इस तथ्य का फायदा उठाता है कि आसन्न फ़्रेम अक्सर एक ही एक्शन इनपुट साझा करते हैं। बड़े पैमाने पर एक्शन-कंडीशनल वीडियो जेनरेशन बेंचमार्क प्रयोगों के माध्यम से, हम प्रदर्शित करते हैं कि NFD दृश्य गुणवत्ता और सैंपलिंग दक्षता के मामले में ऑटोरिग्रैसिव बेसलाइन मॉडल से बेहतर प्रदर्शन करता है, और 310 मिलियन-पैरामीटर मॉडल का उपयोग करके A100 GPU पर 30 फ़्रेम प्रति सेकंड से अधिक पर पहला ऑटोरिग्रैसिव वीडियो जेनरेशन प्राप्त करता है।

____T27881_____, ____T27882_____

Takeaways:
ऑटोरिग्रैसिव वीडियो मॉडल (30 FPS से अधिक प्राप्त करना) का उपयोग करके वास्तविक समय वीडियो निर्माण की संभावना प्रस्तुत करना।
संगति आसवन और पूर्वानुमानात्मक नमूनाकरण तकनीकों के माध्यम से स्वप्रतिगामी मॉडलों की नमूनाकरण दक्षता में महत्वपूर्ण रूप से सुधार करना।
ब्लॉक-स्तरीय कारणात्मक ध्यान का उपयोग करके कुशल अनुमान।
यह एक्शन-कंडीशनल वीडियो निर्माण में मौजूदा ऑटोरिग्रैसिव बेसलाइन मॉडल से बेहतर प्रदर्शन करता है।
Limitations:
वास्तविक समय वीडियो निर्माण के लिए उच्च कम्प्यूटेशनल लागत की समस्या अभी भी मौजूद है, और अधिक हल्के मॉडलों के विकास की आवश्यकता हो सकती है।
पूर्वानुमानात्मक नमूनाकरण की प्रभावशीलता क्रिया इनपुट की निरंतरता पर निर्भर करती है, और जब क्रियाएं बार-बार बदलती हैं तो प्रदर्शन ख़राब हो सकता है।
प्रस्तावित कार्यप्रणाली के सामान्यीकरण प्रदर्शन और अन्य वीडियो डेटासेट पर इसके प्रदर्शन का अतिरिक्त मूल्यांकन आवश्यक है।
परिणाम A100 GPU का उपयोग करके प्राप्त किए जाते हैं, इसलिए अन्य हार्डवेयर वातावरणों पर प्रदर्शन भिन्न हो सकता है।
👍