TokenFlow est un nouveau générateur de tokens d'images unifié qui comble le fossé persistant entre compréhension et génération multimodales. Des recherches antérieures ont tenté d'intégrer ces deux tâches à l'aide d'un seul encodeur de quantification vectorielle (VQ) à cible de reconstruction. Cependant, nous avons observé que la compréhension et la génération requièrent des granularités d'information visuelle fondamentalement différentes. Cela introduit un compromis important, entraînant de faibles performances, en particulier pour les tâches de compréhension multimodale. TokenFlow relève ce défi grâce à une architecture innovante à double codebook qui sépare l'apprentissage sémantique et l'apprentissage des caractéristiques au niveau des pixels grâce à un mécanisme de mappage partagé, tout en préservant leur alignement. Cette conception offre un accès direct aux représentations sémantiques à haute dimension, essentielles pour les tâches de compréhension, et aux caractéristiques visuelles fines, essentielles pour la génération, grâce à un index partagé. Des expériences approfondies démontrent la supériorité de TokenFlow sur plusieurs dimensions. Grâce à TokenFlow, nous avons obtenu la première surclassement de LLaVA-1.5 13B en termes de performances de compréhension pour les entrées visuelles discrètes, avec une amélioration moyenne de 7,2 %. Pour la reconstruction d'images, nous obtenons un score FID robuste de 0,63 à une résolution de 384 × 384. De plus, TokenFlow a atteint des performances de pointe en génération d'images autorégressives avec un score GenEval de 0,55 à une résolution de 256 × 256, comparable à SDXL.