दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ज्ञान-आधारित दृश्य प्रश्न-उत्तर के लिए बड़े भाषा मॉडल पर आधारित बहु-एजेंट

Created by
  • Haebom

लेखक

झोंगजियान हू, पेंग यांग, बिंग ली, झेंकी वांग

रूपरेखा

यह शोधपत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम)-आधारित दृश्य प्रश्नोत्तर (वीक्यूए) के लिए मौजूदा तरीकों में बाहरी उपकरणों के स्वायत्त उपयोग और टीमवर्क की कमी की समस्याओं को दूर करने के लिए एक बहु-एजेंट वोटिंग ढाँचे का प्रस्ताव करता है। परिचित प्रश्नों का सीधे उत्तर देने और अपरिचित प्रश्नों के लिए सर्च इंजन जैसे उपकरणों का उपयोग करने की मानवीय प्रवृत्ति से प्रेरित होकर, हमने अलग-अलग क्षमताओं वाले तीन एलएलएम-आधारित एजेंट डिज़ाइन किए हैं और प्रत्येक एजेंट की क्षमताओं के आधार पर बाहरी उपकरणों का उपयोग करने का निर्णय लिया है। अंतिम उत्तर प्रत्येक एजेंट के उत्तरों पर मतदान करके प्राप्त किया जाता है। ओके-वीक्यूए और ए-ओकेवीक्यूए डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि हमारा प्रस्तावित ढाँचा मौजूदा तरीकों की तुलना में क्रमशः 2.2 और 1.0 प्रतिशत प्रदर्शन में सुधार करता है।

Takeaways, Limitations

Takeaways:
हम एलएलएम-आधारित वीक्यूए में बाह्य उपकरणों और सहयोग के उपयोग के महत्व पर जोर देते हैं और इसे प्रभावी ढंग से लागू करने के लिए एक बहु-एजेंट मतदान ढांचे का प्रस्ताव करते हैं।
प्रस्तावित ढांचे के उत्कृष्ट प्रदर्शन को प्रयोगात्मक परिणामों के माध्यम से सत्यापित किया गया।
हम मानव समस्या-समाधान विधियों की नकल करके एलएलएम के प्रदर्शन को बेहतर बनाने के लिए एक नवीन दृष्टिकोण का प्रस्ताव करते हैं।
Limitations:
प्रस्तावित ढांचे के एजेंट डिजाइन और उपकरण आवंटन रणनीतियों की सामान्यता का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के VQA डेटासेट और बाह्य उपकरणों पर आगे और प्रयोग करने की आवश्यकता है।
एजेंटों के बीच अंतःक्रिया और संचार तंत्र पर अधिक परिष्कृत शोध की आवश्यकता है।
👍