Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Tokenizer holistique pour la génération d'images autorégressives

Created by
  • Haebom

Auteur

Anlin Zheng, Haochen Wang, Yucheng Zhao, Weipeng Deng, Tiancai Wang, Xiangyu Zhang, Xiaojuan Qi

Contour

Hita est un nouveau tokeniseur d'images proposé pour améliorer les performances des modèles de génération d'images autorégressives. Pour pallier les limitations des tokeniseurs existants qui associent des patchs d'images locaux à des jetons et utilisent ainsi des informations globales limitées, nous introduisons une technique de tokenisation globale-locale utilisant des requêtes globales apprenables et des jetons de patch locaux. Hita améliore la cohérence du processus de génération autorégressive grâce à une structure séquentielle qui place les jetons globaux en premier, puis les jetons locaux consécutivement, et à un module de fusion léger qui traite préférentiellement les jetons globaux avant d'introduire les jetons déquantifiés dans le décodeur. Il atteint les niveaux FID 2.59 et IS 281.9 sur le benchmark ImageNet, surpassant ainsi les modèles existants basés sur des tokeniseurs, et se montre également efficace pour le transfert de type « zero-shot » et l'inpainting d'images.

Takeaways, Limitations

Takeaways:
Amélioration de la vitesse d'apprentissage des modèles de génération d'images autorégressives.
Atteint des performances de génération d'images supérieures aux méthodes existantes (FID 2.59, IS 281.9 sur ImageNet).
Apprentissage de la représentation globale qui capture efficacement les caractéristiques globales de l'image (texture, matériau, forme).
Il suggère une applicabilité à diverses tâches telles que le transfert de style zéro-shot et la retouche d'image.
La reproductibilité est possible grâce au code ouvert.
Limitations:
Le point spécifique Limitations n'est pas explicitement mentionné dans l'article. Des améliorations pourraient être apportées grâce à des recherches futures.
👍