यह शोधपत्र सामान्य ज्ञान दृश्य प्रश्नोत्तर (VQA) में लघु-स्तरीय दृश्य-भाषा मॉडल (sVLM) के प्रदर्शन को बेहतर बनाने के लिए एक संपूर्ण ढाँचा (NLKI) प्रस्तुत करता है। NLKI प्राकृतिक भाषा तथ्यों को प्राप्त करके, LLM का उपयोग करके प्राकृतिक भाषा स्पष्टीकरण उत्पन्न करके, और इन संकेतों को sVLM को भेजकर कार्य करता है। तथ्य पुनर्प्राप्ति के लिए ColBERTv2 और इकाई-समृद्ध संकेतों का लाभ उठाते हुए, उत्पन्न स्पष्टीकरण भ्रम को कम करते हैं और सटीकता में 7% तक सुधार करते हैं। इसके अलावा, नॉइज़-रोबस्ट लॉस फ़ंक्शन का उपयोग करके और अधिक सूक्ष्म समायोजन करके, हम CRIC डेटासेट पर 2.5% और AOKVQA डेटासेट पर 5.5% की सटीकता में सुधार प्राप्त करते हैं, जिससे FLAVA जैसे sVLM का प्रदर्शन Qwen-2 VL-2B और SmolVLM-2.5B जैसे मध्यम आकार के VLM के स्तर पर आ जाता है। यह अध्ययन दर्शाता है कि एलएलएम-आधारित सामान्य ज्ञान, सामान्य ज्ञान आधार पुनर्प्राप्ति की तुलना में अधिक प्रभावी है, शोर-जागरूक शिक्षण बाहरी ज्ञान वृद्धि स्थितियों में छोटे मॉडलों की स्थिरता को बढ़ाता है, और पैरामीटर-कुशल सामान्य ज्ञान अनुमान 250 मिलियन पैरामीटर वाले मॉडल में भी संभव है।