यह पेपर रोबोट्स इमिटेटिंग जेनरेटेड वीडियो (RIGVid) सिस्टम का परिचय देता है। RIGVid रोबोट को शारीरिक प्रदर्शन या रोबोट-विशिष्ट प्रशिक्षण के बिना AI-जनरेटेड वीडियो की नकल करके डालने, पोंछने और मिश्रण करने जैसे जटिल हेरफेर कार्य करने में सक्षम बनाता है। एक मौखिक आदेश और एक प्रारंभिक दृश्य छवि दिए जाने पर, एक वीडियो प्रसार मॉडल संभावित प्रदर्शन वीडियो उत्पन्न करता है, और एक विज़न-लैंग्वेज मॉडल (VLM) स्वचालित रूप से गैर-कमांड-अनुसरण परिणामों को फ़िल्टर करता है। एक 6D पोज़ ट्रैकर फिर वीडियो से ऑब्जेक्ट ट्रैजेक्टरी निकालता है, जिसे फिर से रोबोट को सौंप दिया जाता है, कार्यान्वयन की परवाह किए बिना। व्यापक वास्तविक दुनिया के मूल्यांकन से पता चलता है कि फ़िल्टर किए गए जनरेशन वीडियो वास्तविक प्रदर्शनों की तरह ही प्रभावी हैं, और जनरेशन की गुणवत्ता में सुधार होने पर प्रदर्शन में सुधार होता है। हम यह भी दिखाते हैं कि जनरेशन वीडियो पर निर्भर रहना VLM का उपयोग करके कीपॉइंट भविष्यवाणी जैसे अधिक संक्षिप्त विकल्पों से बेहतर प्रदर्शन करता है, और यह कि मजबूत 6D पोज़ ट्रैकिंग अन्य ट्रैजेक्टरी निष्कर्षण विधियों जैसे कि सघन फीचर ट्रैकिंग से बेहतर प्रदर्शन करती है। इन परिणामों से पता चलता है कि अत्याधुनिक वाणिज्यिक मॉडलों द्वारा निर्मित वीडियो रोबोट संचालन के पर्यवेक्षण का एक प्रभावी स्रोत हो सकते हैं।