इस पत्र में, हम पुनर्प्राप्ति संवर्द्धन निर्माण (RAG) पर आधारित एक KB-VQA दृष्टिकोण प्रस्तावित करते हैं जो बाह्य ज्ञानकोषों (KB) का उपयोग करके इस समस्या का समाधान करता है कि अत्याधुनिक बहुविध वृहद भाषा मॉडल (MLLM) को दृश्य प्रश्नोत्तर (VQA) कार्यों में डोमेन-विशिष्ट या अद्यतन ज्ञान तक पहुँचने में कठिनाई होती है। मौजूदा एकल-विध पुनर्प्राप्ति तकनीकों में छवि सूचना हानि की समस्या का समाधान करने के लिए, हम एक ज्ञान इकाई पुनर्प्राप्ति संवर्द्धन निर्माण (KU-RAG) ढाँचा प्रस्तावित करते हैं जो पाठ अंशों और वस्तु छवियों जैसे विभिन्न प्रकार के बहुविध डेटा अंशों से बनी सूक्ष्म ज्ञान इकाइयों का संरचनात्मक रूप से निर्माण करता है और उन्हें MLLM के साथ एकीकृत करता है। KU-RAG प्रासंगिक ज्ञान की सटीक पुनर्प्राप्ति सुनिश्चित करता है और ज्ञान संशोधन श्रृंखलाओं के माध्यम से अनुमान क्षमता को बढ़ाता है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि मौजूदा KB-VQA विधियों से औसतन 3% और चार बेंचमार्क पर 11% तक बेहतर प्रदर्शन करती है।