Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TokenFlow: Tokenizador de imágenes unificado para la comprensión y generación multimodal

Created by
  • Haebom

Autor

Liao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan, Xinglong Wu

Describir

TokenFlow es un novedoso tokenizador de imágenes unificado que cierra la brecha existente entre la comprensión y la generación multimodal. Investigaciones previas han intentado integrar estas dos tareas mediante un único codificador de cuantificación vectorial (VQ) de reconstrucción-objetivo. Sin embargo, observamos que la comprensión y la generación requieren granularidades de información visual fundamentalmente diferentes. Esto supone un compromiso significativo, lo que resulta en un rendimiento deficiente, especialmente en tareas de comprensión multimodal. TokenFlow aborda este desafío con una innovadora arquitectura de libro de códigos dual que separa el aprendizaje de características semánticas y a nivel de píxel mediante un mecanismo de mapeo compartido, manteniendo su alineación. Este diseño proporciona acceso directo a representaciones semánticas de alta dimensión, cruciales para las tareas de comprensión, y a características visuales de grano fino esenciales para la generación mediante un índice compartido. Experimentos exhaustivos demuestran la superioridad de TokenFlow en múltiples dimensiones. Aprovechando TokenFlow, logramos el primer LLaVA-1.5 13B con mejor rendimiento en comprensión para entradas visuales discretas, logrando una mejora promedio del 7,2 %. Para la reconstrucción de imágenes, logramos una robusta puntuación FID de 0,63 con una resolución de 384 × 384. Además, TokenFlow logró un rendimiento de vanguardia en la generación de imágenes autorregresivas con una puntuación GenEval de 0,55 con una resolución de 256 × 256, comparable a la de SDXL.

Takeaways, Limitations

Takeaways:
Se presenta una nueva arquitectura para un tokenizador de imágenes integrado para tareas de generación y comprensión multimodal.
Realiza eficazmente la comprensión semántica y la generación de imágenes detalladas de forma simultánea a través de una arquitectura de libro de códigos dual.
Se logró un rendimiento de comprensión que superó al modelo de mejor rendimiento anterior (LLaVA-1.5 13B) utilizando entrada visual discreta (mejora del 7,2 %).
Se logró un excelente rendimiento de reconstrucción de imágenes (FID 0,63 a 384 384) y un rendimiento de generación de imágenes autorregresivas (GenEval 0,55 a 256 256)
Limitations:
El artículo carece de referencias específicas a Limitations o direcciones de investigación futuras.
Falta de explicación detallada de las dependencias en conjuntos de datos específicos o entornos de hardware.
👍