यह शोधपत्र पूर्व-प्रशिक्षित मॉडलों (PTM) पर आधारित सतत दृश्य प्रश्नोत्तर (CVQA) में सतत बहुविध अधिगम को सक्षम करने के लिए प्रॉम्प्ट ट्यूनिंग के उपयोग का अन्वेषण करता है। अधिकांश मौजूदा विधियाँ क्रॉस-मोडल प्रॉम्प्ट को पृथक करती हैं और दृश्य व पाठ्य प्रॉम्प्ट को अलग-अलग बनाती हैं, जिससे मोडल असंतुलन बढ़ता है और समय के साथ प्रदर्शन में गिरावट आती है। इस समस्या के समाधान के लिए, हम MM-प्रॉम्प्ट का प्रस्ताव करते हैं, जो एक नवीन ढाँचा है जो क्रॉस-मोडल प्रॉम्प्ट क्वेरी और क्रॉस-मोडल प्रॉम्प्ट रिकवरी को एकीकृत करता है। MM-प्रॉम्प्ट की क्रॉस-मोडल प्रॉम्प्ट क्वेरी, क्वेरी निर्माण के दौरान क्रॉस-मोडल संकेतों को शामिल करके संतुलित प्रॉम्प्ट चयन को सक्षम बनाती है, जबकि क्रॉस-मोडल प्रॉम्प्ट रिकवरी, अभिव्यंजना में उतार-चढ़ाव को रोकने के लिए संरेखण हानि द्वारा निर्देशित पुनरावृत्त क्रॉस-मोडल अंतःक्रियाओं के माध्यम से संयुक्त प्रॉम्प्ट पुनर्निर्माण की सुविधा प्रदान करती है। व्यापक प्रयोगों से पता चलता है कि MM-प्रॉम्प्ट, सतत अधिगम के दौरान संतुलित मोडल जुड़ाव बनाए रखते हुए सटीकता और ज्ञान धारण के मामले में पिछले तरीकों से बेहतर प्रदर्शन करता है।