VITA एक दृष्टि-क्रिया प्रवाह मिलान नीति है जो अव्यक्त दृश्य अभ्यावेदन को अव्यक्त क्रियाओं में परिवर्तित करके दृश्य-प्रेरक नियंत्रण करती है। मौजूदा प्रवाह मिलान और प्रसार नीतियाँ गॉसियन नॉइज़ जैसे मानक स्रोत वितरणों से नमूना लेती हैं और दृश्य सूचना पर क्रिया निर्माण की शर्त के लिए क्रॉस-अटेंशन जैसे अतिरिक्त कंडीशनिंग तंत्रों की आवश्यकता होती है, जिससे अस्थायी और स्थानिक ओवरहेड्स उत्पन्न होते हैं। VITA एक नवीन प्रतिमान प्रस्तुत करता है जो अव्यक्त छवियों को प्रवाह स्रोतों के रूप में मानता है, अलग-अलग कंडीशनिंग मॉड्यूल को समाप्त करता है और जनरेटिव मॉडलिंग क्षमताओं को बनाए रखते हुए दृष्टि से क्रिया तक एक अद्वितीय मैपिंग सीखता है। दृष्टि और क्रिया जैसे मौलिक रूप से भिन्न तौर-तरीकों के बीच प्रवाह सीखना चुनौतीपूर्ण है क्योंकि विरल क्रिया डेटा में अर्थ संरचना का अभाव होता है और उच्च-आयामी दृश्य अभ्यावेदन और अपरिष्कृत क्रियाओं के बीच आयामी बेमेल होता है। इस समस्या का समाधान करने के लिए, हम एक ऑटोएनकोडर के माध्यम से प्रवाह मिलान लक्ष्य के रूप में एक संरचित क्रिया अव्यक्त स्थान उत्पन्न करते हैं और दृश्य अभ्यावेदन के रूप से मिलान करने के लिए अपरिष्कृत क्रियाओं का अपसैंपल करते हैं। महत्वपूर्ण रूप से, हम एनकोडर लक्ष्य और अंतिम क्रिया आउटपुट, दोनों का उपयोग करके प्रवाह सुप्त डिकोडिंग के माध्यम से प्रवाह मिलान की निगरानी करते हैं, और प्रभावी एंड-टू-एंड लर्निंग के लिए अनुक्रमिक प्रवाह-मिलान ODE समाधान चरण के माध्यम से क्रिया पुनर्निर्माण हानि को प्रतिप्रसारित करते हैं। एक सरल MLP परत के रूप में कार्यान्वित, VITA का मूल्यांकन जटिल द्विहस्त कार्यों पर किया जाता है, जिसमें ALOHA प्लेटफ़ॉर्म पर पाँच सिम्युलेटेड और दो वास्तविक-विश्व कार्य शामिल हैं। अपनी सरलता के बावजूद, केवल-MLP VITA, अत्याधुनिक जनरेटिव नीतियों से बेहतर प्रदर्शन करता है या उनके बराबर है, जबकि मौजूदा प्रवाह-मिलान नीतियों की तुलना में अनुमान विलंबता को 50-130% तक कम करता है। हमारी सर्वोत्तम जानकारी के अनुसार, VITA पहली MLP-केवल प्रवाह-मिलान नीति है जो ALOHA बेंचमार्क जैसे जटिल द्विहस्त कार्यों को हल कर सकती है।