यह शोधपत्र चैटजीपीटी और ओपनवीएलए जैसे मौजूदा बड़े पैमाने के पूर्व-प्रशिक्षित मॉडलों द्वारा प्रयुक्त "मल्टीपल-इनपुट, सिंगल-आउटपुट" (MISO) आर्किटेक्चर की सीमाओं पर प्रकाश डालता है। यह आर्किटेक्चर "मल्टीपल-इनपुट, मल्टीपल-आउटपुट" (MIMO) कार्यों (जैसे, समानांतर मल्टी-टास्क आउटपुट प्रोसेसिंग) में कार्य पारस्परिक बहिष्करण का कारण बनता है, जिससे आउटपुट चैनल साझा करते समय कई कार्यों के बीच संसाधन प्रतिस्पर्धा होती है, जिसके परिणामस्वरूप अनुकूलन असंतुलन और प्रदर्शन में गिरावट आती है। इसके विपरीत, MIMO प्रोसेसिंग (जैसे, समवर्ती वार्तालाप और निर्णय लेना) के माध्यम से मनुष्य बिना किसी व्यवधान के एक साथ कार्य निष्पादित कर सकते हैं। इससे प्रेरित होकर, हम एक साथ चैटिंग और निर्णय लेने के लिए विज़ुअल लैंग्वेज एक्शन मॉडल (VLASCD, या MIMO-VLA) प्रस्तावित करते हैं, जो एक एकीकृत MIMO-प्रशिक्षित मॉडल है जिसमें समानांतर मल्टी-टास्क आउटपुट हैं जो एक साथ वार्तालाप और निर्णय लेने में सक्षम हैं। कार्ला स्वायत्त ड्राइविंग प्लेटफॉर्म पर प्रायोगिक परिणाम दर्शाते हैं कि एमआईएमओ-वीएलए, एमआईएमओ परिदृश्यों में वार्तालाप और निर्णय लेने के कार्यों को एक साथ संसाधित करने में एमआईएसओ वार्तालाप क्षमताओं, सुदृढीकरण सीखने के मॉडल और एमआईएसओ निर्णय क्षमताओं के साथ वीएलए मॉडल के साथ एलएलएम मॉडल से काफी बेहतर प्रदर्शन करता है।