Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Génération d'images efficace avec des têtes d'attention variadique

Created by
  • Haebom

Auteur

Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi

Contour

Cet article souligne que l'intégration de transformateurs dans les modèles de vision a apporté des améliorations significatives aux tâches de vision, mais nécessite toujours une quantité importante de calculs, tant pour l'apprentissage que pour l'inférence. Les mécanismes d'attention limitée réduisent considérablement cette charge de calcul, mais au prix d'une perte de cohérence globale ou locale. Pour y remédier, cet article propose une méthode simple mais puissante qui permet à la tête d'attention d'un seul transformateur de se concentrer sur plusieurs champs récepteurs. Nous présentons un modèle appelé StyleNAT en intégrant cette méthode (Attention de voisinage, NA) dans une architecture basée sur StyleGAN. StyleNAT atteint un FID de 2,05 sur FFHQ, soit 6 % de mieux que StyleGAN-XL, et atteint un débit 4 fois supérieur tout en utilisant 28 % de paramètres en moins. Il atteint la frontière de Pareto sur FFHQ-256 et démontre une génération d'images efficace et robuste sur d'autres jeux de données. Le code et les points de contrôle du modèle sont accessibles au public.

Takeaways, Limitations

Takeaways:
Une méthode efficace pour surmonter les limitations des mécanismes d’attention limitée est présentée (attention à champs réceptifs multiples).
Performances FID améliorées (amélioration de 6 %) par rapport à StyleGAN-XL, paramètres réduits de 28 % et débit multiplié par 4.
Atteinte de la frontière de Pareto dans FFHQ-256.
Suggérant la possibilité d'une génération d'images efficace et robuste sur d'autres ensembles de données.
Augmentation de la reproductibilité et de l'évolutivité de la recherche grâce au code ouvert et aux points de contrôle des modèles.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Des expériences supplémentaires sur différents ensembles de données et tâches sont nécessaires.
Une analyse plus approfondie de la complexité informatique de l’attention multi-réceptive du champ est nécessaire.
👍