Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ZipAR : Génération d'images autorégressives parallèles via la localité spatiale

Created by
  • Haebom

Auteur

Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

Contour

Dans cet article, nous proposons ZipAR, un framework de décodage parallèle prêt à l'emploi, qui ne nécessite pas d'apprentissage pour accélérer la génération d'images par méthodes autorégressives (AR). Il est développé selon l'idée que les images ont une structure locale et que les régions spatialement distantes ont une interdépendance minimale. Étant donné un ensemble de jetons visuels partiellement décodés, en plus de l'approche conventionnelle de prédiction du jeton suivant en dimension ligne, nous décodons en parallèle les jetons correspondant aux régions spatialement adjacentes en dimension colonne, permettant ainsi un paradigme de « prédiction du prochain ensemble ». En décodant simultanément plusieurs jetons en une seule passe, nous réduisons considérablement le nombre de passes nécessaires à la génération d'images, améliorant ainsi significativement l'efficacité de la génération. Les résultats expérimentaux montrent que ZipAR peut réduire le nombre de passes du modèle jusqu'à 91 % sur un modèle Emu3-Gen sans réapprentissage supplémentaire. Le code est disponible à l' adresse https://github.com/ThisisBillhe/ZipAR .

Takeaways, Limitations

Takeaways:
Un nouveau cadre de décodage parallèle qui peut considérablement améliorer la vitesse des modèles de génération d'images autorégressives est présenté.
Adoption d'une approche plug-and-play applicable aux modèles existants sans formation supplémentaire
Utiliser efficacement les caractéristiques structurelles locales des images pour augmenter l'efficacité du calcul
Le modèle Emu3-Gen montre jusqu'à 91 % de réduction des temps de propagation vers l'avant
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée sera également efficace pour tous les modèles de génération d’images AR.
Seuls les résultats expérimentaux pour un modèle spécifique (Emu3-Gen) sont présentés, il y a donc un manque de vérification de la généralisabilité.
Des analyses plus poussées sont nécessaires pour déterminer si le décodage parallèle de la dimension thermique est efficace pour tous les types d’images.
👍