Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RandAR : Génération visuelle autorégressive dans des ordres aléatoires uniquement par décodeur

Created by
  • Haebom

Auteur

Ziqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan, Kai Zhang, William T. Freeman, Yu-Xiong Wang

Contour

RandAR est un modèle autorégressif visuel (AR) uniquement basé sur un décodeur, capable de générer des images avec un ordre de jeton arbitraire. Alors que les modèles AR existants uniquement basés sur un décodeur reposent sur un ordre de génération prédéfini, RandAR supprime ce biais inductif et offre de nouvelles fonctionnalités de génération uniquement basée sur un décodeur. Sa conception permet un ordre arbitraire en insérant un « jeton indicateur de position » qui indique la position spatiale avant le prochain jeton d'image à prédire. RandAR, entraîné avec des séquences de jetons permutées aléatoirement (une tâche plus complexe que la génération à ordre fixe), atteint des performances comparables à celles des modèles à ordre raster existants. Plus important encore, les transformateurs uniquement basés sur un décodeur, entraînés avec un ordre aléatoire, acquièrent de nouvelles fonctionnalités. Pour pallier le goulot d'étranglement des modèles AR, RandAR adopte le décodage parallèle avec KV-Cache au moment de l'inférence, permettant une accélération de 2,5 fois supérieure sans compromettre la qualité de génération. RandAR prend également en charge l'inpainting, l'outpainting et l'extrapolation de résolution en mode zéro-shot.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle direction pour les modèles génératifs visuels uniquement pour décodeur.
Il surmonte les limitations des modèles existants en permettant la génération d’images dans n’importe quel ordre de jetons.
Vitesse d'inférence améliorée de 2,5x grâce au décodage parallèle.
Prend en charge l'inpainting, l'outpainting et l'extrapolation de résolution de manière zéro shot.
Limitations:
L'article ne mentionne pas explicitement le __T2250_____ spécifique. Des expériences et analyses supplémentaires sont nécessaires pour révéler les limites de performance de RandAR et sa vulnérabilité à certains types d'images.
Il est nécessaire de présenter clairement les avantages de la génération d’ordres aléatoires et d’analyser ses avantages pratiques plus spécifiquement par rapport aux modèles d’ordres fixes existants.
👍