Hita es un novedoso tokenizador de imágenes propuesto para superar las limitaciones de los modelos autorregresivos de generación de imágenes existentes. Los modelos existentes tienen dificultades para capturar relaciones globales al generar tokens secuencialmente, y presentan problemas debido a que dependen de la información de parches locales, lo que limita su uso. Hita resuelve estos problemas introduciendo una consulta global aprendible y un método de tokenización global-local que utiliza tokens de parches locales. Utiliza una estructura secuencial que coloca primero los tokens globales y luego los de parches, y atención causal para mantener la conciencia de los tokens anteriores, además de un módulo de fusión ligero para controlar el flujo de información y aumentar la prioridad de los tokens globales. Obtuvo FID 2.59 e IS 281.9 en el benchmark ImageNet, mostrando un rendimiento superior al de los tokenizadores existentes, además de una velocidad de entrenamiento mejorada. También demostró eficacia en la transferencia de estilo de disparo cero y la restauración de imágenes.