पपेट-मास्टर एक इंटरैक्टिव वीडियो जनरेटर है जो वस्तुओं की आंतरिक, आंशिक-स्तरीय गति को कैप्चर करता है और सार्वभौमिक वस्तु गतिकी मॉडलिंग के लिए एक प्रॉक्सी के रूप में कार्य करता है। किसी वस्तु की एक छवि और उस वस्तु पर कई बिंदुओं के प्रक्षेप पथों को निर्दिष्ट करने वाले "ड्रैग" के एक समूह को देखते हुए, मॉडल एक वीडियो संश्लेषित करता है जिसमें वस्तु के भाग तदनुसार गति करते हैं। इसे प्राप्त करने के लिए, हम इनपुट ड्रैग को एनकोड करने के लिए एक पूर्व-प्रशिक्षित छवि-से-वीडियो जनरेटर का विस्तार करते हैं और पारंपरिक स्थानिक ध्यान के विकल्प के रूप में ऑल-टू-फर्स्ट ध्यान का प्रस्ताव करते हैं, जिससे आउट-ऑफ-डोमेन डेटा पर वीडियो जनरेटर को फ़ाइन-ट्यूनिंग के कारण होने वाली कलाकृतियों को कम किया जा सकता है। हम मॉडल को Objaverse-Animation-HQ पर फ़ाइन-ट्यून करते हैं, जो सिंथेटिक 3D एनिमेशन रेंडरिंग द्वारा प्राप्त क्यूरेटेड आंशिक-स्तरीय गति क्लिप का एक नया डेटासेट है। वास्तविक दुनिया के वीडियो के विपरीत, ये सिंथेटिक क्लिप संपूर्ण-वस्तु और कैमरा गति को आंशिक-स्तरीय गति के साथ भ्रमित होने से बचाते हैं। हम उप-इष्टतम एनिमेशन को व्यापक रूप से फ़िल्टर करते हैं और सिंथेटिक रेंडरिंग को सार्थक ड्रैग के साथ बढ़ाते हैं जो वस्तु की आंतरिक गतिकी पर ज़ोर देते हैं। अन्य गति-अनुकूलित वीडियो जनरेटरों के विपरीत, जो मुख्य रूप से संपूर्ण वस्तुओं को गति प्रदान करते हैं, पपेट-मास्टर आंशिक-स्तरीय गति उत्पन्न करना सीखता है। यह डोमेन के बाहर वास्तविक दुनिया की छवियों के लिए भी अच्छी तरह से सामान्यीकृत होता है और शून्य-शॉट तरीके से वास्तविक दुनिया के बेंचमार्क पर मौजूदा विधियों से बेहतर प्रदर्शन करता है।