यह पत्र 3D विज़ुअल ग्राउंडिंग के लिए एक कुशल मॉडल प्रस्तावित करता है। मौजूदा विधियाँ RGB छवियों, टेक्स्ट और 3D पॉइंट क्लाउड के लिए अलग-अलग एनकोडर का उपयोग करती हैं, जिसके परिणामस्वरूप बड़े और जटिल मॉडल और अकुशल प्रशिक्षण प्राप्त होता है। इस पत्र में, हम एक ऐसी विधि प्रस्तावित करते हैं जो पूर्व-प्रशिक्षित 2D मल्टीमॉडल नेटवर्क का लाभ उठाकर तीनों मोडैलिटीज़ को एकीकृत करती है। हम त्रि-मॉडल सेटिंग के लिए प्रभावी रूप से अनुकूलन हेतु 2D CLIP मॉडल पर एडेप्टर-आधारित फ़ाइन-ट्यूनिंग लागू करते हैं, और जियोमेट्रिक-अवेयर 2D-3D फ़ीचर रिकवरी एंड फ़्यूज़न (GARF) मॉड्यूल पॉइंट क्लाउड और छवियों की ज्यामितीय बहु-पैमाने वाली विशेषताओं को फ़्यूज़ करता है। हम अंतिम मोडैलिटी फ़्यूज़न के लिए टेक्स्ट विशेषताओं को एकीकृत करते हैं, और एक मल्टीमॉडल डिकोडर गहन क्रॉस-मोडल समझ को सक्षम बनाता है। परिणामस्वरूप, हम 3D डिटेक्शन में 6.52% और 3D विज़ुअल ग्राउंडिंग में 6.25% प्रदर्शन सुधार प्राप्त करते हैं, जबकि मापदंडों की संख्या लगभग 58% कम हो जाती है।