[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fusion guidée de jetons de représentation locale pour la génération de texte en image

Created by
  • Haebom

Auteur

Min-Jeong Lee, Hee-Dong Kim, Seong-Whan Lee

Contour

Dans cet article, nous proposons une nouvelle stratégie de fusion de jetons, ReToM (fusion guidée par jetons représentatifs locaux), afin d'améliorer la vitesse de Stable Diffusion, un modèle de génération d'images textuelles. Si les méthodes de fusion de jetons existantes se concentrent sur la réduction de la complexité de calcul des opérations d'attention, elles ne prennent pas en compte les caractéristiques des modèles de génération d'images. Pour surmonter cette limitation, ReToM définit des limites locales en fonction des fenêtres d'entrée d'attention et ajuste la taille de la fenêtre pour fusionner les jetons en fonction de diverses informations contextuelles. De plus, nous introduisons un jeton représentatif qui sélectionne le jeton le plus représentatif dans chaque fenêtre en calculant la similarité à un pas de temps spécifique, minimisant ainsi la charge de calcul tout en préservant les caractéristiques locales les plus importantes. Les résultats expérimentaux montrent que ReToM améliore le FID de 6,2 % et augmente le score CLIP par rapport au modèle de base, tout en maintenant un temps d'inférence similaire. Cela démontre empiriquement qu'il équilibre efficacement qualité visuelle et efficacité de calcul.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle stratégie de fusion de jetons, ReToM, qui contribue à améliorer la vitesse des modèles de génération d'images basés sur l'attention tels que Stable Diffusion.
Amélioration confirmée de la qualité de l’image grâce à des scores FID et CLIP améliorés.
Atteint efficacement un équilibre entre l’efficacité de calcul et la qualité de l’image.
Présentation d'une méthodologie générale applicable à divers mécanismes d'attention.
Limitations:
Les améliorations de performances de ReToM peuvent être limitées à des ensembles de données ou des modèles spécifiques.
Les stratégies d’optimisation pour le dimensionnement des fenêtres et la sélection de jetons représentatifs peuvent nécessiter des recherches supplémentaires.
Une analyse comparative plus complète avec d’autres méthodes de fusion de jetons est nécessaire.
👍