Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Hita : Tokenizer holistique pour la génération d'images autorégressives

Created by
  • Haebom

Auteur

Anlin Zheng, Haochen Wang, Yucheng Zhao, Weipeng Deng, Tiancai Wang, Xiangyu Zhang, Xiaojuan Qi

Contour

Hita est un nouveau générateur de jetons d'images proposé pour pallier les limitations des modèles autorégressifs de génération d'images existants. Ces modèles peinent à capturer les relations globales lors de la génération séquentielle de jetons, et présentent des problèmes liés à leur dépendance aux informations de patch locales, limitant ainsi l'utilisation des informations globales. Hita résout ces problèmes en introduisant une requête globale apprenable et une méthode de tokenisation globale-locale utilisant des jetons de patch locaux. Il utilise une structure séquentielle qui place les jetons globaux en premier, puis les jetons de patch, une attention causale pour maintenir la connaissance des jetons précédents, et un module de fusion léger pour contrôler le flux d'informations et augmenter la priorité des jetons globaux. Il a obtenu les scores FID 2.59 et IS 281.9 au benchmark ImageNet, affichant des performances supérieures à celles des générateurs de jetons existants, et une vitesse d'apprentissage améliorée. Il a également démontré son efficacité dans le transfert de type « zero-shot » et l'inpainting d'images.

Takeaways, Limitations

Takeaways:
Amélioration des performances des modèles de génération d'images autorégressives : obtention des performances SOTA sur ImageNet (FID 2.59, IS 281.9).
Augmentation de la vitesse d'entraînement.
Capacité améliorée à capturer les caractéristiques globales de l'image (texture, matériau, forme).
Utilisation efficace dans le transfert de style zéro-shot et la retouche d'image.
Une nouvelle approche de conception de tokeniseurs globaux-locaux est présentée.
Limitations:
L'article ne fait pas explicitement référence au Limitations de Hita. Des améliorations pourraient être apportées grâce à de futures recherches.
Manque d'informations sur les dépendances ou l'évolutivité pour des environnements matériels spécifiques.
👍