Hita est un nouveau tokeniseur d'images proposé pour améliorer les performances des modèles de génération d'images autorégressives. Pour pallier les limitations des tokeniseurs existants qui associent des patchs d'images locaux à des jetons et utilisent ainsi des informations globales limitées, nous introduisons une technique de tokenisation globale-locale utilisant des requêtes globales apprenables et des jetons de patch locaux. Hita améliore la cohérence du processus de génération autorégressive grâce à une structure séquentielle qui place les jetons globaux en premier, puis les jetons locaux consécutivement, et à un module de fusion léger qui traite préférentiellement les jetons globaux avant d'introduire les jetons déquantifiés dans le décodeur. Il atteint les niveaux FID 2.59 et IS 281.9 sur le benchmark ImageNet, surpassant ainsi les modèles existants basés sur des tokeniseurs, et se montre également efficace pour le transfert de type « zero-shot » et l'inpainting d'images.