Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Hita: Tokenizador holístico para la generación de imágenes autorregresivas

Created by
  • Haebom

Autor

Anlin Zheng, Haochen Wang, Yucheng Zhao, Weipeng Deng, Tiancai Wang, Xiangyu Zhang, Xiaojuan Qi

Describir

Hita es un novedoso tokenizador de imágenes propuesto para superar las limitaciones de los modelos autorregresivos de generación de imágenes existentes. Los modelos existentes tienen dificultades para capturar relaciones globales al generar tokens secuencialmente, y presentan problemas debido a que dependen de la información de parches locales, lo que limita su uso. Hita resuelve estos problemas introduciendo una consulta global aprendible y un método de tokenización global-local que utiliza tokens de parches locales. Utiliza una estructura secuencial que coloca primero los tokens globales y luego los de parches, y atención causal para mantener la conciencia de los tokens anteriores, además de un módulo de fusión ligero para controlar el flujo de información y aumentar la prioridad de los tokens globales. Obtuvo FID 2.59 e IS 281.9 en el benchmark ImageNet, mostrando un rendimiento superior al de los tokenizadores existentes, además de una velocidad de entrenamiento mejorada. También demostró eficacia en la transferencia de estilo de disparo cero y la restauración de imágenes.

Takeaways, Limitations

Takeaways:
Mejora del rendimiento de los modelos de generación de imágenes autorregresivas: logro del rendimiento SOTA en ImageNet (FID 2.59, IS 281.9).
Aumento de la velocidad de entrenamiento.
Capacidad mejorada para capturar características de imagen globales (textura, material, forma).
Utilización eficaz en transferencias de estilo de disparo cero y en la restauración de imágenes.
Se presenta un enfoque novedoso para el diseño de tokenizadores globales-locales.
Limitations:
El artículo no menciona explícitamente el Limitations de Hita. Es posible que se puedan realizar mejoras mediante futuras investigaciones.
Falta de información sobre dependencias o escalabilidad para entornos de hardware específicos.
👍