यह शोधपत्र ज्ञान-आधारित दृश्य प्रश्नोत्तर (VQA) में बड़े पैमाने के भाषा मॉडल (LLM) के उपयोग का अन्वेषण करता है। पिछले अध्ययनों के विपरीत, जो LLM को सीधे उत्तरों की भविष्यवाणी करने के लिए प्रेरित करते हैं, यह शोधपत्र एक नवीन ढाँचे, PLRH, का प्रस्ताव करता है जो तर्कसंगत अनुमान, एक मध्यवर्ती तर्क प्रक्रिया, का लाभ उठाता है। PLRH, LLM को तर्कसंगत अनुमान उत्पन्न करने के लिए मार्गदर्शन करने हेतु चेन्स ऑफ़ थिंकिंग (CoT) का उपयोग करता है, जिसका उपयोग फिर उत्तरों की भविष्यवाणी करने के लिए किया जाता है। प्रायोगिक परिणाम दर्शाते हैं कि OK-VQA और A-OKVQA में PLRH मौजूदा आधारभूत मॉडलों से क्रमशः 2.2 और 2.1 अंक बेहतर प्रदर्शन करता है।