यह शोधपत्र एक "प्रॉम्प्ट-इन-इमेज" तकनीक का प्रस्ताव करता है जो दृश्य भाषा मॉडल (वीएलएम) की भ्रम समस्या का समाधान करने के लिए टेक्स्ट प्रॉम्प्ट को सीधे छवियों में एम्बेड करता है। इस तकनीक का उद्देश्य अलग से टेक्स्ट इनपुट की आवश्यकता के बिना, सभी सूचनाओं को दृश्य चैनल के माध्यम से संसाधित करके क्रॉस-मोडल संरेखण समस्या का समाधान करना है। तीन ओपन-सोर्स वीएलएम—क्यूवेन2.5-वीएल, एलएलएवीए-1.5, और इंस्ट्रक्टबीएलआईपी—के साथ किए गए प्रयोगों से पता चलता है कि क्वेन2.5-वीएल प्रदर्शन में सुधार करता है (पीओपीई सटीकता में 4.1% वृद्धि और भ्रम दर में कमी), जबकि एलएलएवीए-1.5 और इंस्ट्रक्टबीएलआईपी प्रदर्शन में उल्लेखनीय गिरावट लाते हैं। इसका कारण एलएलएवीए और इंस्ट्रक्टबीएलआईपी के सीएलआईपी-आधारित एनकोडर हैं जो एम्बेडेड टेक्स्ट क्षेत्र पर अत्यधिक ध्यान केंद्रित करते हैं, जिससे दृश्य समझ में बाधा आती है। इसके विपरीत, क्वेन का विज़ुअल एनकोडर टेक्स्ट युक्त छवियों को प्रभावी ढंग से संसाधित करता है, इंटरमॉडल अंतरों को कम करता है और सूचना एकीकरण के माध्यम से क्रॉस-मोडल संरेखण में सुधार करता है।