इस पत्र में, हम एक बाह्य स्मृति प्रणाली का प्रस्ताव करते हैं जो बहुविध और बहुभाषी वास्तविक-विश्व ज्ञान को कुशलतापूर्वक प्रदान करती है ताकि मौजूदा भाषा मॉडल (एलएम) और दृश्य-भाषा मॉडल (वीएलएम) की सीमाओं का समाधान किया जा सके जो जटिल अनुमान कार्यों को करने में कठिनाई का सामना करते हैं। जहाँ मौजूदा विधियाँ छवियों और पाठ टोकनों को लंबे अनुक्रमों में संयोजित करती हैं, वहीं इस पत्र में, हम बहुविध और बहुभाषी ज्ञान को अधिक प्रभावी और कुशलतापूर्वक प्रस्तुत करने के लिए सघन एम्बेडिंग के एक सघन समूह, सतत स्मृति का उपयोग करते हैं। मुख्य विचार यह है कि वीएलएम स्वयं एक सतत स्मृति एनकोडर के रूप में कार्य कर सकता है। यह जटिल बहुविध अनुमान कार्यों के प्रदर्शन में सुधार करता है, और हम केवल 1.2% मॉडल पैरामीटर और 15.6K स्व-संश्लेषित नमूनों का उपयोग करके वीएलएम को एक स्मृति एनकोडर के रूप में परिष्कृत करने के लिए एक डेटा- और पैरामीटर-कुशल विधि प्रस्तुत करते हैं। प्रस्तावित विधि, जिसे CoMEM कहा जाता है, मनमाने बहुविध और बहुभाषी ज्ञान को केवल आठ सतत एम्बेडिंग में एनकोड करती है, और अनुमान के दौरान वीएलएम स्थिर रहता है, जिससे इसे प्लग-एंड-प्ले तरीके से लचीले ढंग से एकीकृत किया जा सकता है। हम आठ मल्टीमॉडल अनुमान मानकों पर व्यापक प्रयोगों के माध्यम से अपने दृष्टिकोण की प्रभावशीलता को प्रदर्शित करते हैं।