दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ज्ञान-आधारित दृश्य प्रश्न-उत्तर के लिए तर्क-निर्देशित संकेत

Created by
  • Haebom

लेखक

झोंगजियान हू, पेंग यांग, बिंग ली, फेंगयुआन लियू

रूपरेखा

यह शोधपत्र ज्ञान-आधारित दृश्य प्रश्नोत्तर (VQA) में बड़े पैमाने के भाषा मॉडल (LLM) के उपयोग का अन्वेषण करता है। पिछले अध्ययनों के विपरीत, जो LLM को सीधे उत्तरों की भविष्यवाणी करने के लिए प्रेरित करते हैं, यह शोधपत्र एक नवीन ढाँचे, PLRH, का प्रस्ताव करता है जो तर्कसंगत अनुमान, एक मध्यवर्ती तर्क प्रक्रिया, का लाभ उठाता है। PLRH, LLM को तर्कसंगत अनुमान उत्पन्न करने के लिए मार्गदर्शन करने हेतु चेन्स ऑफ़ थिंकिंग (CoT) का उपयोग करता है, जिसका उपयोग फिर उत्तरों की भविष्यवाणी करने के लिए किया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि OK-VQA और A-OKVQA में PLRH मौजूदा आधारभूत मॉडलों से क्रमशः 2.2 और 2.1 अंक बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
यह एक ऐसे दृष्टिकोण की प्रभावशीलता को प्रदर्शित करता है जो एलएलएम की क्षमता को अधिकतम करने के लिए मध्यवर्ती विचार प्रक्रियाओं का उपयोग करता है।
हम पीएलआरएच की श्रेष्ठता को प्रदर्शित करते हैं, जो ज्ञान-आधारित वीक्यूए में सीओटी और अनुमानात्मक अनुमान को संयोजित करने वाला एक नवीन ढांचा है।
OK-VQA और A-OKVQA डेटासेट पर मौजूदा विधियों की तुलना में प्रदर्शन में सुधार प्राप्त होता है।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
यह सत्यापित करना आवश्यक है कि क्या किसी विशिष्ट डेटासेट के लिए प्रदर्शन सुधार अन्य डेटासेट पर लागू किया जा सकता है।
हेयुरिस्टिक निर्माण प्रक्रिया की व्याख्या और विश्वसनीयता निर्धारित करने के लिए आगे के विश्लेषण की आवश्यकता है।
👍