यह शोधपत्र मस्तिष्क गतिविधि से दृश्य जानकारी के पुनर्निर्माण के अध्ययन से संबंधित है। FMRI का उपयोग करके जनरेटिव मॉडल का उपयोग करके छवियों को डिकोड करने पर अध्ययन किए गए हैं, लेकिन अत्यधिक जटिल दृश्य उत्तेजनाओं को सटीक रूप से पुनर्स्थापित करना मुश्किल रहा है। यह उत्तेजना में तत्वों की घनत्व और विविधता, विस्तृत स्थानिक संरचना और बहुमुखी अर्थ संबंधी जानकारी के कारण है। इस समस्या को हल करने के लिए, यह शोधपत्र HAVIR मॉडल का प्रस्ताव करता है, जिसमें दो एडेप्टर शामिल हैं। AutoKL एडेप्टर fMRI वॉक्सल को एक लेटेंट डिफ्यूजन डिक्शनरी में बदल देता है जो टोपोलॉजिकल संरचना को कैप्चर करता है, और CLIP एडेप्टर वॉक्सल को CLIP टेक्स्ट और इमेज एम्बेडिंग में बदल देता है जिसमें अर्थ संबंधी जानकारी होती है। इन पूरक अभ्यावेदनों को अंतिम पुनर्निर्मित छवि बनाने के लिए बहुमुखी प्रसार द्वारा जोड़ा जाता है। जटिल परिदृश्यों में सबसे महत्वपूर्ण अर्थ संबंधी जानकारी निकालने के लिए, CLIP एडेप्टर को दृश्य उत्तेजना और कैप्शन के साथ संश्लेषित अर्थ संबंधी छवियों का वर्णन करने वाले टेक्स्ट कैप्शन का उपयोग करके प्रशिक्षित किया जाता है। प्रयोगात्मक परिणाम दर्शाते हैं कि HAVIR जटिल परिदृश्यों में भी दृश्य उत्तेजनाओं की संरचनात्मक विशेषताओं और अर्थ संबंधी जानकारी को प्रभावी ढंग से पुनर्निर्मित करता है, तथा मौजूदा मॉडलों से बेहतर प्रदर्शन करता है।