दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MIDAS: वास्तविक समय ऑटोरिग्रैसिव वीडियो जेनरेशन के माध्यम से मल्टीमॉडल इंटरैक्टिव डिजिटल-ह्यूमन संश्लेषण

Created by
  • Haebom

लेखक

मिंग चेन, लियुआन कुई, वेनयुआन झांग, हाओक्सियान झांग, यान झोउ, ज़ियाओहान ली, सोंगलिन तांग, जिवेन लियू, बोरुई लियाओ, हेजिया चेन, ज़ियाओकियांग लियू, पेंगफेई वान

रूपरेखा

यह शोधपत्र वास्तविक समय में इंटरैक्टिव डिजिटल मानव वीडियो निर्माण हेतु एक रूपरेखा प्रस्तुत करता है। मौजूदा विधियों की उच्च गणना लागत और सीमित नियंत्रणीयता को ध्यान में रखते हुए, हम एक स्वतःप्रधान वीडियो निर्माण विधि प्रस्तावित करते हैं जो निम्न-विलंबता अनुमान लगाने में सक्षम है। एक वृहत्-स्तरीय भाषा मॉडल (LLM) में न्यूनतम संशोधन के साथ, यह ऑडियो, पोज़ और टेक्स्ट सहित विभिन्न सशर्त एन्कोडिंग स्वीकार करता है, और स्थानिक और अर्थगत रूप से सुसंगत निरूपण आउटपुट करता है जो एक विसरण मॉडल की शोर-निरोधन प्रक्रिया का मार्गदर्शन करते हैं। मॉडल प्रशिक्षण के लिए लगभग 20,000 घंटों का एक वृहत्-स्तरीय वार्तालाप डेटासेट तैयार किया गया है, और स्वतःप्रधान मॉडल के दीर्घकालिक अनुमान भार को प्रभावी ढंग से कम करने के लिए 64x तक संपीड़न अनुपात वाला एक गहन संपीड़न ऑटोएनकोडर प्रस्तुत किया गया है। यह दृष्टिकोण विभिन्न प्रयोगों, जैसे द्वि-मार्गी वार्तालाप, बहुभाषी मानव संश्लेषण, और इंटरैक्टिव विश्व मॉडल, में निम्न विलंबता, उच्च दक्षता और सूक्ष्म बहुविध नियंत्रणीयता प्रदर्शित करता है।

Takeaways, Limitations

Takeaways:
डिजिटल मानव वीडियो बनाने की नई संभावनाएं प्रस्तुत करना जो वास्तविक समय में बातचीत कर सकें।
विभिन्न तौर-तरीकों (ऑडियो, पोज़, टेक्स्ट) का उपयोग करके परिष्कृत नियंत्रण
गहन संपीडन ऑटोएनकोडर्स का उपयोग करके कम विलंबता, उच्च दक्षता अनुमान प्राप्त करना।
बड़े पैमाने पर वार्तालाप डेटासेट का निर्माण करके वास्तविक दुनिया के वार्तालाप परिदृश्यों को प्रतिबिंबित करना
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का आगे मूल्यांकन आवश्यक है।
संपीड़न प्रक्रिया के दौरान होने वाली संभावित सूचना हानि और छवि गुणवत्ता में गिरावट को दूर करने के लिए विश्लेषण की आवश्यकता है।
20,000 घंटे के वार्तालाप डेटासेट की संरचना और गुणवत्ता के विस्तृत विवरण का अभाव।
अन्य अत्याधुनिक विधियों के साथ अधिक विस्तृत तुलनात्मक विश्लेषण की आवश्यकता है।
👍