हिता एक नया इमेज टोकनाइज़र है जिसे ऑटोरिग्रैसिव इमेज जेनरेशन मॉडल के प्रदर्शन को बेहतर बनाने के लिए प्रस्तावित किया गया है। मौजूदा टोकनाइज़र की सीमा को दूर करने के लिए जो स्थानीय इमेज पैच को टोकन में मैप करते हैं और इस प्रकार सीमित वैश्विक जानकारी का उपयोग करते हैं, हम एक वैश्विक-स्थानीय टोकनाइज़ेशन तकनीक पेश करते हैं जो सीखने योग्य वैश्विक क्वेरी और स्थानीय पैच टोकन का उपयोग करती है। हिता एक अनुक्रमिक संरचना के माध्यम से ऑटोरिग्रैसिव जेनरेशन प्रक्रिया के साथ संगतता में सुधार करता है जो पहले वैश्विक टोकन रखता है और फिर स्थानीय टोकन को क्रमिक रूप से रखता है, और एक हल्का फ़्यूज़न मॉड्यूल जो डीकोडर में डीक्वांटाइज़्ड टोकन इनपुट करने से पहले वैश्विक टोकन को प्राथमिकता से संसाधित करता है। यह इमेजनेट बेंचमार्क पर FID 2.59 और IS 281.9 प्राप्त करता है, जो मौजूदा टोकनाइज़र-आधारित मॉडल से बेहतर प्रदर्शन करता है, और ज़ीरो-शॉट स्टाइल ट्रांसफ़र और इमेज इनपेंटिंग में प्रभावशीलता भी दिखाता है।