दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीएलएएससीडी: एक साथ बातचीत और निर्णय लेने के लिए एक दृश्य भाषा क्रिया मॉडल

Created by
  • Haebom

लेखक

ज़ुओजिन तांग, बिन हू, चेनयांग झाओ, डी मा, गैंग पैन, बिन लियू

रूपरेखा

यह शोधपत्र चैटजीपीटी और ओपनवीएलए जैसे मौजूदा बड़े पैमाने के पूर्व-प्रशिक्षित मॉडलों द्वारा प्रयुक्त "मल्टीपल-इनपुट, सिंगल-आउटपुट" (MISO) आर्किटेक्चर की सीमाओं पर प्रकाश डालता है। यह आर्किटेक्चर "मल्टीपल-इनपुट, मल्टीपल-आउटपुट" (MIMO) कार्यों (जैसे, समानांतर मल्टी-टास्क आउटपुट प्रोसेसिंग) में कार्य पारस्परिक बहिष्करण का कारण बनता है, जिससे आउटपुट चैनल साझा करते समय कई कार्यों के बीच संसाधन प्रतिस्पर्धा होती है, जिसके परिणामस्वरूप अनुकूलन असंतुलन और प्रदर्शन में गिरावट आती है। इसके विपरीत, MIMO प्रोसेसिंग (जैसे, समवर्ती वार्तालाप और निर्णय लेना) के माध्यम से मनुष्य बिना किसी व्यवधान के एक साथ कार्य निष्पादित कर सकते हैं। इससे प्रेरित होकर, हम एक साथ चैटिंग और निर्णय लेने के लिए विज़ुअल लैंग्वेज एक्शन मॉडल (VLASCD, या MIMO-VLA) प्रस्तावित करते हैं, जो एक एकीकृत MIMO-प्रशिक्षित मॉडल है जिसमें समानांतर मल्टी-टास्क आउटपुट हैं जो एक साथ वार्तालाप और निर्णय लेने में सक्षम हैं। कार्ला स्वायत्त ड्राइविंग प्लेटफॉर्म पर प्रायोगिक परिणाम दर्शाते हैं कि एमआईएमओ-वीएलए, एमआईएमओ परिदृश्यों में वार्तालाप और निर्णय लेने के कार्यों को एक साथ संसाधित करने में एमआईएसओ वार्तालाप क्षमताओं, सुदृढीकरण सीखने के मॉडल और एमआईएसओ निर्णय क्षमताओं के साथ वीएलए मॉडल के साथ एलएलएम मॉडल से काफी बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम MIMO संरचना की उपयोगिता प्रस्तुत करते हैं जो MISO संरचना की सीमाओं पर विजय प्राप्त करती है।
हम एक नया मॉडल, वीएलएएससीडी (एमआईएमओ-वीएलए) प्रस्तावित करते हैं, जो एक साथ बातचीत और निर्णय लेने जैसे जटिल कार्यों को करने के लिए प्रभावी है।
हमने प्रयोगात्मक रूप से स्वायत्त ड्राइविंग अनुप्रयोगों में MIMO-VLA के बेहतर प्रदर्शन को सत्यापित किया है।
Limitations:
प्रस्तावित मॉडल के सामान्यीकरण प्रदर्शन का मूल्यांकन करने के लिए आगे अनुसंधान की आवश्यकता है।
ये प्रयोगात्मक परिणाम CARLA प्लेटफॉर्म तक ही सीमित हैं, तथा अन्य वातावरणों में प्रदर्शन के लिए और अधिक सत्यापन की आवश्यकता है।
मॉडल की जटिलता और कम्प्यूटेशनल लागत के विश्लेषण का अभाव है।
👍