दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ट्यूनिंग के बिना लंबे वीडियो निर्माण की स्थिरता को बढ़ाना

Created by
  • Haebom

लेखक

जिंगयाओ ली, फेंगझुओ झांग, जियाचुन पैन, यूनलोंग होउ, विंसेंट वाईएफ टैन, झुओरन यांग

रूपरेखा

यह शोधपत्र लंबे प्रारूप वाले वीडियो निर्माण की संगति को बेहतर बनाने पर केंद्रित है, विशेष रूप से दृश्यों के बीच सहजता और संक्रमण। एकल या एकाधिक प्रॉम्प्ट का उपयोग करके वीडियो निर्माण में संगति और सामंजस्य को बेहतर बनाने के लिए, हम डिस्क्रीट शॉर्ट-टाइम फूरियर ट्रांसफॉर्म (DSFT) पर आधारित टाइम-फ़्रीक्वेंसी आधारित टेम्पोरल अटेंशन रीवेटिंग एल्गोरिदम (TiARA) का प्रस्ताव करते हैं। TiARA फ़्रीक्वेंसी-आधारित विश्लेषण के माध्यम से अटेंशन स्कोर मैट्रिक्स को संपादित करके अंतर-फ़्रेम संगति को बेहतर बनाता है। इसके अलावा, हम कई प्रॉम्प्ट के साथ उत्पन्न वीडियो के लिए प्रॉम्प्ट संरेखण जैसे महत्वपूर्ण कारकों की पहचान करते हैं और प्रॉम्प्टब्लेंड का प्रस्ताव करते हैं, जो एक उन्नत प्रॉम्प्ट इंटरपोलेशन पाइपलाइन है जो प्रॉम्प्ट को व्यवस्थित रूप से संरेखित करती है। प्रायोगिक परिणाम प्रस्तावित विधि की प्रभावशीलता को सत्यापित करते हैं, जो कई बेसलाइन मॉडल पर सुसंगत और महत्वपूर्ण प्रदर्शन सुधार दिखाते हैं।

Takeaways, Limitations

Takeaways:
हम दीर्घकालिक वीडियो निर्माण की स्थिरता में सुधार करने के लिए सबसे पहले वीडियो प्रसार मॉडल में आवृत्ति-आधारित विधि लागू करते हैं।
हम TiARA और PromptBlend एल्गोरिदम प्रस्तुत करते हैं, जो एकल और एकाधिक प्रॉम्प्ट में वीडियो निर्माण की स्थिरता और सामंजस्य को बेहतर बनाने में योगदान करते हैं।
हम बहु-प्रॉम्प्ट वीडियो निर्माण में प्रॉम्प्ट संरेखण के महत्व को उजागर करते हैं और इसे बेहतर बनाने के लिए एक विधि प्रस्तावित करते हैं।
प्रस्तावित विधि की प्रभावशीलता विभिन्न संदर्भ मॉडलों पर प्रयोगों के माध्यम से प्रदर्शित की गई है।
Limitations:
प्रस्तावित विधि की कम्प्यूटेशनल लागत और जटिलता के विश्लेषण का अभाव है।
विभिन्न प्रकार के वीडियो डेटासेटों पर सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विशिष्ट प्रकार के प्रॉम्प्ट या वीडियो के प्रदर्शन में गिरावट की संभावना का पता लगाने के लिए विश्लेषण की आवश्यकता है।
👍