RandAR est un modèle autorégressif visuel (AR) uniquement basé sur un décodeur, capable de générer des images avec un ordre de jeton arbitraire. Alors que les modèles AR existants uniquement basés sur un décodeur reposent sur un ordre de génération prédéfini, RandAR supprime ce biais inductif et offre de nouvelles fonctionnalités de génération uniquement basée sur un décodeur. Sa conception permet un ordre arbitraire en insérant un « jeton indicateur de position » qui indique la position spatiale avant le prochain jeton d'image à prédire. RandAR, entraîné avec des séquences de jetons permutées aléatoirement (une tâche plus complexe que la génération à ordre fixe), atteint des performances comparables à celles des modèles à ordre raster existants. Plus important encore, les transformateurs uniquement basés sur un décodeur, entraînés avec un ordre aléatoire, acquièrent de nouvelles fonctionnalités. Pour pallier le goulot d'étranglement des modèles AR, RandAR adopte le décodage parallèle avec KV-Cache au moment de l'inférence, permettant une accélération de 2,5 fois supérieure sans compromettre la qualité de génération. RandAR prend également en charge l'inpainting, l'outpainting et l'extrapolation de résolution en mode zéro-shot.