यह शोधपत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम)-आधारित दृश्य प्रश्नोत्तर (वीक्यूए) के लिए मौजूदा तरीकों में बाहरी उपकरणों के स्वायत्त उपयोग और टीमवर्क की कमी की समस्याओं को दूर करने के लिए एक बहु-एजेंट वोटिंग ढाँचे का प्रस्ताव करता है। परिचित प्रश्नों का सीधे उत्तर देने और अपरिचित प्रश्नों के लिए सर्च इंजन जैसे उपकरणों का उपयोग करने की मानवीय प्रवृत्ति से प्रेरित होकर, हमने अलग-अलग क्षमताओं वाले तीन एलएलएम-आधारित एजेंट डिज़ाइन किए हैं और प्रत्येक एजेंट की क्षमताओं के आधार पर बाहरी उपकरणों का उपयोग करने का निर्णय लिया है। अंतिम उत्तर प्रत्येक एजेंट के उत्तरों पर मतदान करके प्राप्त किया जाता है। ओके-वीक्यूए और ए-ओकेवीक्यूए डेटासेट पर प्रायोगिक परिणाम दर्शाते हैं कि हमारा प्रस्तावित ढाँचा मौजूदा तरीकों की तुलना में क्रमशः 2.2 और 1.0 प्रतिशत प्रदर्शन में सुधार करता है।