Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TokenFlow : Tokenizer d'images unifié pour la compréhension et la génération multimodales

Created by
  • Haebom

Auteur

Liao Qu, Huichao Zhang, Yiheng Liu, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Daniel K. Du, Zehuan Yuan, Xinglong Wu

Contour

TokenFlow est un nouveau générateur de tokens d'images unifié qui comble le fossé persistant entre compréhension et génération multimodales. Des recherches antérieures ont tenté d'intégrer ces deux tâches à l'aide d'un seul encodeur de quantification vectorielle (VQ) à cible de reconstruction. Cependant, nous avons observé que la compréhension et la génération requièrent des granularités d'information visuelle fondamentalement différentes. Cela introduit un compromis important, entraînant de faibles performances, en particulier pour les tâches de compréhension multimodale. TokenFlow relève ce défi grâce à une architecture innovante à double codebook qui sépare l'apprentissage sémantique et l'apprentissage des caractéristiques au niveau des pixels grâce à un mécanisme de mappage partagé, tout en préservant leur alignement. Cette conception offre un accès direct aux représentations sémantiques à haute dimension, essentielles pour les tâches de compréhension, et aux caractéristiques visuelles fines, essentielles pour la génération, grâce à un index partagé. Des expériences approfondies démontrent la supériorité de TokenFlow sur plusieurs dimensions. Grâce à TokenFlow, nous avons obtenu la première surclassement de LLaVA-1.5 13B en termes de performances de compréhension pour les entrées visuelles discrètes, avec une amélioration moyenne de 7,2 %. Pour la reconstruction d'images, nous obtenons un score FID robuste de 0,63 à une résolution de 384 × 384. De plus, TokenFlow a atteint des performances de pointe en génération d'images autorégressives avec un score GenEval de 0,55 à une résolution de 256 × 256, comparable à SDXL.

Takeaways, Limitations

Takeaways:
Une nouvelle architecture pour un tokeniseur d'images intégré pour des tâches de compréhension et de génération multimodales est présentée.
Effectue efficacement la compréhension sémantique et la génération d'images détaillées simultanément grâce à une architecture de double livre de codes.
A obtenu des performances de compréhension supérieures à celles du modèle précédent le plus performant (LLaVA-1.5 13B) en utilisant une entrée visuelle discrète (amélioration de 7,2 %)
Excellentes performances de reconstruction d'image obtenues (FID 0,63 à 384 384) et performances de génération d'image autorégressive (GenEval 0,55 à 256 256)
Limitations:
L’article manque de références spécifiques à Limitations ou aux orientations de recherche futures.
Manque d'explication détaillée des dépendances sur des ensembles de données ou des environnements matériels spécifiques.
👍