हिता एक नया इमेज टोकनाइज़र है जिसे मौजूदा ऑटोरिग्रैसिव इमेज जेनरेशन मॉडल्स की सीमाओं को दूर करने के लिए प्रस्तावित किया गया है। मौजूदा मॉडल्स को टोकन्स को क्रमिक रूप से जनरेट करते समय ग्लोबल रिलेशनशिप्स को कैप्चर करने में कठिनाई होती है, और इसमें समस्या यह है कि वे स्थानीय पैच जानकारी पर निर्भर करते हैं और इस प्रकार ग्लोबल जानकारी का सीमित उपयोग करते हैं। हिता एक सीखने योग्य ग्लोबल क्वेरी और एक ग्लोबल-लोकल टोकनाइज़ेशन विधि, जो स्थानीय पैच टोकन्स का उपयोग करती है, को प्रस्तुत करके इन समस्याओं का समाधान करता है। यह एक अनुक्रमिक संरचना का उपयोग करता है जो पहले ग्लोबल टोकन्स और फिर पैच टोकन्स को रखता है, और पिछले टोकन्स के बारे में जागरूकता बनाए रखने के लिए कारणात्मक ध्यान, और सूचना प्रवाह को नियंत्रित करने और ग्लोबल टोकन्स की प्राथमिकता बढ़ाने के लिए एक हल्का फ़्यूज़न मॉड्यूल का उपयोग करता है। इसने इमेजनेट बेंचमार्क पर FID 2.59 और IS 281.9 प्राप्त किया, जो मौजूदा टोकनाइज़र्स की तुलना में बेहतर प्रदर्शन दर्शाता है, और प्रशिक्षण गति में भी सुधार करता है। इसने ज़ीरो-शॉट स्टाइल ट्रांसफर और इमेज इनपेंटिंग में भी प्रभावशीलता दिखाई।