Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RandAR: Generación visual autorregresiva con decodificador exclusivo en órdenes aleatorios

Created by
  • Haebom

Autor

Ziqi Pang, Tianyuan Zhang, Fujun Luan, Yunze Man, Hao Tan, Kai Zhang, William T. Freeman, Yu-Xiong Wang

Describir

RandAR es un modelo autorregresivo visual (RA) basado únicamente en decodificador que puede generar imágenes con un orden de token arbitrario. Mientras que los modelos de RA basados ​​únicamente en decodificador existentes se basan en un orden de generación predefinido, RandAR elimina este sesgo inductivo y ofrece nuevas capacidades en la generación basada únicamente en decodificador. El diseño central permite un orden arbitrario mediante la inserción de un "token indicador de posición" que indica la ubicación espacial antes del siguiente token de imagen a predecir. RandAR, entrenado con secuencias de tokens permutadas aleatoriamente (una tarea más compleja que la generación de orden fijo), logra un rendimiento comparable al de los modelos de orden ráster existentes. Más importante aún, los transformadores basados ​​únicamente en decodificador, entrenados con orden aleatorio, adquieren nuevas capacidades. Para abordar el cuello de botella de eficiencia de los modelos de RA, RandAR adopta la decodificación paralela con KV-Cache en el momento de la inferencia, logrando una aceleración de 2,5x sin comprometer la calidad de la generación. RandAR también admite la reinvención de imágenes, la superposición de imágenes y la extrapolación de la resolución de forma instantánea.

Takeaways, Limitations

Takeaways:
Presentamos una nueva dirección para los modelos generativos visuales basados ​​únicamente en decodificadores.
Supera las limitaciones de los modelos existentes al permitir la generación de imágenes en cualquier orden de token.
La velocidad de inferencia se mejoró 2,5 veces mediante decodificación paralela.
Admite retoques, retoques y extrapolación de resolución en modo de disparo cero.
Limitations:
El artículo no menciona explícitamente el __T11358_____ específico. Se requieren experimentos y análisis adicionales para revelar las limitaciones de rendimiento de RandAR y su vulnerabilidad a tipos de imágenes específicos.
Es necesario presentar claramente las ventajas de la generación de orden aleatorio y analizar sus ventajas prácticas más específicamente en comparación con los modelos de orden fijo existentes.
👍