दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पपेट-मास्टर: पार्ट-लेवल डायनेमिक्स के लिए मोशन प्रायर के रूप में इंटरैक्टिव वीडियो जेनरेशन को स्केल करना

Created by
  • Haebom

लेखक

रुइनिंग ली, चुआंक्सिया झेंग, क्रिश्चियन रुप्प्रेच्ट, एंड्रिया वेदल्डी

रूपरेखा

पपेट-मास्टर एक इंटरैक्टिव वीडियो जनरेटर है जो वस्तुओं की आंतरिक, आंशिक-स्तरीय गति को कैप्चर करता है और सार्वभौमिक वस्तु गतिकी मॉडलिंग के लिए एक प्रॉक्सी के रूप में कार्य करता है। किसी वस्तु की एक छवि और उस वस्तु पर कई बिंदुओं के प्रक्षेप पथों को निर्दिष्ट करने वाले "ड्रैग" के एक समूह को देखते हुए, मॉडल एक वीडियो संश्लेषित करता है जिसमें वस्तु के भाग तदनुसार गति करते हैं। इसे प्राप्त करने के लिए, हम इनपुट ड्रैग को एनकोड करने के लिए एक पूर्व-प्रशिक्षित छवि-से-वीडियो जनरेटर का विस्तार करते हैं और पारंपरिक स्थानिक ध्यान के विकल्प के रूप में ऑल-टू-फर्स्ट ध्यान का प्रस्ताव करते हैं, जिससे आउट-ऑफ-डोमेन डेटा पर वीडियो जनरेटर को फ़ाइन-ट्यूनिंग के कारण होने वाली कलाकृतियों को कम किया जा सकता है। हम मॉडल को Objaverse-Animation-HQ पर फ़ाइन-ट्यून करते हैं, जो सिंथेटिक 3D एनिमेशन रेंडरिंग द्वारा प्राप्त क्यूरेटेड आंशिक-स्तरीय गति क्लिप का एक नया डेटासेट है। वास्तविक दुनिया के वीडियो के विपरीत, ये सिंथेटिक क्लिप संपूर्ण-वस्तु और कैमरा गति को आंशिक-स्तरीय गति के साथ भ्रमित होने से बचाते हैं। हम उप-इष्टतम एनिमेशन को व्यापक रूप से फ़िल्टर करते हैं और सिंथेटिक रेंडरिंग को सार्थक ड्रैग के साथ बढ़ाते हैं जो वस्तु की आंतरिक गतिकी पर ज़ोर देते हैं। अन्य गति-अनुकूलित वीडियो जनरेटरों के विपरीत, जो मुख्य रूप से संपूर्ण वस्तुओं को गति प्रदान करते हैं, पपेट-मास्टर आंशिक-स्तरीय गति उत्पन्न करना सीखता है। यह डोमेन के बाहर वास्तविक दुनिया की छवियों के लिए भी अच्छी तरह से सामान्यीकृत होता है और शून्य-शॉट तरीके से वास्तविक दुनिया के बेंचमार्क पर मौजूदा विधियों से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम पपेट-मास्टर प्रस्तुत करते हैं, जो एक नया इंटरैक्टिव वीडियो जनरेटर है जो खंड-स्तर पर वस्तु गति उत्पन्न करता है।
यह वास्तविक दुनिया के बेंचमार्क पर शून्य-शॉट प्रदर्शन में मौजूदा तरीकों से बेहतर प्रदर्शन करता है।
हम एक सर्व-से-प्रथम ध्यान तकनीक का प्रस्ताव करते हैं जो आउट-ऑफ-डोमेन डेटा पर फाइन-ट्यूनिंग के कारण उत्पन्न होने वाली कलाकृतियों को कम करता है।
कृत्रिम डेटा का लाभ उठाकर स्थानीय गति के बारे में प्रभावी ढंग से जानें।
Limitations:
यह Objaverse-Animation-HQ डेटासेट पर काफ़ी हद तक निर्भर करता है। विभिन्न डेटासेट पर प्रदर्शन सत्यापन आवश्यक है।
"ड्रैग" का सटीक नामकरण परिणामों की गुणवत्ता को प्रभावित कर सकता है। ड्रैग नामकरण को स्वचालित करने के लिए और अधिक शोध की आवश्यकता है।
चूँकि इसे सिंथेटिक डेटा पर प्रशिक्षित किया गया था, इसलिए यह वास्तविक दुनिया के डेटा की जटिलता और विविधता को पूरी तरह से प्रतिबिंबित नहीं कर सकता है। वास्तविक दुनिया के डेटा के लिए और भी मज़बूत प्रदर्शन सुधारों की आवश्यकता है।
👍