RandAR es un modelo autorregresivo visual (RA) basado únicamente en decodificador que puede generar imágenes con un orden de token arbitrario. Mientras que los modelos de RA basados únicamente en decodificador existentes se basan en un orden de generación predefinido, RandAR elimina este sesgo inductivo y ofrece nuevas capacidades en la generación basada únicamente en decodificador. El diseño central permite un orden arbitrario mediante la inserción de un "token indicador de posición" que indica la ubicación espacial antes del siguiente token de imagen a predecir. RandAR, entrenado con secuencias de tokens permutadas aleatoriamente (una tarea más compleja que la generación de orden fijo), logra un rendimiento comparable al de los modelos de orden ráster existentes. Más importante aún, los transformadores basados únicamente en decodificador, entrenados con orden aleatorio, adquieren nuevas capacidades. Para abordar el cuello de botella de eficiencia de los modelos de RA, RandAR adopta la decodificación paralela con KV-Cache en el momento de la inferencia, logrando una aceleración de 2,5x sin comprometer la calidad de la generación. RandAR también admite la reinvención de imágenes, la superposición de imágenes y la extrapolación de la resolución de forma instantánea.