Hita est un nouveau générateur de jetons d'images proposé pour pallier les limitations des modèles autorégressifs de génération d'images existants. Ces modèles peinent à capturer les relations globales lors de la génération séquentielle de jetons, et présentent des problèmes liés à leur dépendance aux informations de patch locales, limitant ainsi l'utilisation des informations globales. Hita résout ces problèmes en introduisant une requête globale apprenable et une méthode de tokenisation globale-locale utilisant des jetons de patch locaux. Il utilise une structure séquentielle qui place les jetons globaux en premier, puis les jetons de patch, une attention causale pour maintenir la connaissance des jetons précédents, et un module de fusion léger pour contrôler le flux d'informations et augmenter la priorité des jetons globaux. Il a obtenu les scores FID 2.59 et IS 281.9 au benchmark ImageNet, affichant des performances supérieures à celles des générateurs de jetons existants, et une vitesse d'apprentissage améliorée. Il a également démontré son efficacité dans le transfert de type « zero-shot » et l'inpainting d'images.