TokenFlow es un novedoso tokenizador de imágenes unificado que cierra la brecha existente entre la comprensión y la generación multimodal. Investigaciones previas han intentado integrar estas dos tareas mediante un único codificador de cuantificación vectorial (VQ) de reconstrucción-objetivo. Sin embargo, observamos que la comprensión y la generación requieren granularidades de información visual fundamentalmente diferentes. Esto supone un compromiso significativo, lo que resulta en un rendimiento deficiente, especialmente en tareas de comprensión multimodal. TokenFlow aborda este desafío con una innovadora arquitectura de libro de códigos dual que separa el aprendizaje de características semánticas y a nivel de píxel mediante un mecanismo de mapeo compartido, manteniendo su alineación. Este diseño proporciona acceso directo a representaciones semánticas de alta dimensión, cruciales para las tareas de comprensión, y a características visuales de grano fino esenciales para la generación mediante un índice compartido. Experimentos exhaustivos demuestran la superioridad de TokenFlow en múltiples dimensiones. Aprovechando TokenFlow, logramos el primer LLaVA-1.5 13B con mejor rendimiento en comprensión para entradas visuales discretas, logrando una mejora promedio del 7,2 %. Para la reconstrucción de imágenes, logramos una robusta puntuación FID de 0,63 con una resolución de 384 × 384. Además, TokenFlow logró un rendimiento de vanguardia en la generación de imágenes autorregresivas con una puntuación GenEval de 0,55 con una resolución de 256 × 256, comparable a la de SDXL.