दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MOGO: उच्च-गुणवत्ता और वास्तविक समय 3D मानव गति निर्माण के लिए अवशिष्ट क्वांटाइज्ड पदानुक्रमित कारण ट्रांसफार्मर

Created by
  • Haebom

लेखक

डोंगजी फू, तेंगजियाओ सन, पेंगचेंग फांग, ज़ियाओहाओ कै, हंसुंग किम

रूपरेखा

इस पत्र में, हम MOGO (मोशन जेनरेशन विद वन-पास) का प्रस्ताव रखते हैं, जो कुशल, रीयल-टाइम 3D मोशन जेनरेशन के लिए एक नया ऑटोरिग्रैसिव फ्रेमवर्क है। MOGO के दो मुख्य घटक हैं। पहला, मोशन स्केल-एडेप्टिव रेसिडुअल वेक्टर क्वांटाइज़ेशन (MoSA-VQ) मॉड्यूल, जो संक्षिप्त किन्तु अभिव्यंजक निरूपण उत्पन्न करने के लिए सीखने योग्य स्केलिंग का उपयोग करके गति अनुक्रमों को पदानुक्रमिक रूप से विच्छेदित करता है। दूसरा, रेसिडुअल क्वांटाइज्ड हाइरार्किकल कॉज़ल ट्रांसफॉर्मर (RQHC-ट्रांसफॉर्मर), जो एक ही फ़ॉरवर्ड पास में बहु-परत मोशन टोकन उत्पन्न करता है, जिससे अनुमान विलंबता में उल्लेखनीय कमी आती है। हम एक टेक्स्ट-कंडीशनल अलाइनमेंट मैकेनिज़्म जोड़कर टेक्स्ट-नियंत्रित मोशन डिकोडिंग को और बेहतर बनाते हैं। ह्यूमनएमएल3डी, किट-एमएल, और सीएमपी जैसे बेंचमार्क डेटासेट पर व्यापक प्रयोग दर्शाते हैं कि MOGO ऐसी जेनरेशन गुणवत्ता प्राप्त करता है जो अत्याधुनिक ट्रांसफॉर्मर-आधारित विधियों से प्रतिस्पर्धी या बेहतर है, साथ ही रीयल-टाइम प्रदर्शन, स्ट्रीमिंग जेनरेशन और ज़ीरो-शॉट सेटिंग्स में सामान्यीकरण में महत्वपूर्ण सुधार प्रदान करता है।

Takeaways, Limitations

Takeaways:
कुशल, वास्तविक समय 3D गति निर्माण के लिए एक नवीन फ्रेमवर्क, MOGO का प्रस्ताव।
MoSA-VQ मॉड्यूल के साथ संक्षिप्त और अभिव्यंजक गति निरूपण उत्पन्न करें।
आरक्यूएचसी-ट्रांसफार्मर का उपयोग करके एकल फॉरवर्ड पास में बहुपरत गति टोकन निर्माण और अनुमान विलंबता को कम करना।
पाठ सशर्त संरेखण तंत्र के माध्यम से पाठ नियंत्रण के अंतर्गत बेहतर गति डिकोडिंग।
अत्याधुनिक तरीकों की तुलना में प्रतिस्पर्धी उत्पादन गुणवत्ता और बेहतर वास्तविक समय प्रदर्शन, स्ट्रीमिंग उत्पादन और शून्य-शॉट प्रदर्शन प्राप्त करें।
Limitations:
इस शोधपत्र में Limitations का स्पष्ट उल्लेख नहीं है। Limitations को स्पष्ट करने के लिए और प्रयोगों और विश्लेषणों की आवश्यकता है।
कुछ डेटासेट पर MOGO का प्रदर्शन पक्षपाती हो सकता है। विविध डेटासेट पर और प्रयोग आवश्यक हैं।
वास्तविक समय में प्रदर्शन में सुधार का मात्रात्मक विश्लेषण शायद कम हो। अधिक विस्तृत प्रदर्शन विश्लेषण की आवश्यकता है।
👍