यह शोधपत्र GLSim का प्रस्ताव करता है, जो बड़े पैमाने के दृष्टि-भाषा मॉडलों में वस्तु विभ्रम का पता लगाने की विश्वसनीयता में सुधार के लिए एक नवीन ढाँचा है। मौजूदा विधियों के विपरीत, जो केवल वैश्विक या स्थानीय परिप्रेक्ष्यों पर विचार करती हैं, GLSim छवि और पाठ विधाओं के बीच वैश्विक और स्थानीय एम्बेडिंग समानता संकेतों का लाभ उठाकर पूरक सूचनाओं को संयोजित करता है। प्रायोगिक परिणाम दर्शाते हैं कि वस्तु विभ्रम का पता लगाने में GLSim मौजूदा विधियों से बेहतर प्रदर्शन करता है।