मौजूदा दृष्टि-भाषा मॉडल (वीएलएम) दृश्य विभ्रम से ग्रस्त हैं, एक ऐसी घटना जिसमें उत्पन्न प्रतिक्रियाओं में दृश्य इनपुट से असंबंधित अशुद्धियाँ होती हैं। मॉडल को ठीक-ठीक किए बिना इस समस्या का समाधान करने के प्रयास मुख्य रूप से भाषाई पूर्वाग्रहों को कम करके या डिकोडिंग के दौरान दृश्य अंतःस्थापन के भार को बढ़ाकर विभ्रम को कम करते हैं। हालाँकि, ये दृष्टिकोण सूक्ष्म दृश्य विवरणों को पकड़ने की अपनी क्षमता में सीमित हैं। इस अध्ययन में, हम परसेप्शन मैग्निफायर (पीएम) का प्रस्ताव करते हैं, जो एक नवीन दृश्य डिकोडिंग विधि है जो प्रासंगिक दृश्य संकेतों को बार-बार अलग करती है और ध्यान तंत्र के आधार पर इन क्षेत्रों को बड़ा करती है, जिससे मॉडल को डिकोडिंग के दौरान सूक्ष्म दृश्य विवरणों पर ध्यान केंद्रित करने में मदद मिलती है। पीएम प्रत्येक डिकोडिंग चरण में संरचनात्मक और प्रासंगिक जानकारी को संरक्षित करते हुए महत्वपूर्ण क्षेत्रों को बड़ा करके दृश्य इनपुट की वीएलएम की जाँच को बढ़ाता है, जिससे यह अधिक सटीक और विश्वसनीय प्रतिक्रियाएँ उत्पन्न करने में सक्षम होता है। व्यापक प्रयोगात्मक परिणाम प्रदर्शित करते हैं कि पीएम न केवल विभ्रम को कम करता है बल्कि मजबूत अनुमान क्षमताओं को बनाए रखते हुए भाषा उत्पादन को भी बढ़ाता है।