Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

X-Invite : Vers une génération universelle d'images contextuelles dans les modèles de fondation du langage de vision autorégressif

Created by
  • Haebom

Auteur

Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

Contour

Cet article présente X-Prompt, un modèle de langage vision autorégressif (MLV) qui exploite les capacités des modèles de langage à grande échelle (MLL). X-Prompt est conçu pour offrir des performances compétitives sur diverses tâches de génération d'images, existantes et inconnues, via un cadre d'apprentissage contextuel. Plus précisément, il prend en charge des séquences de jetons contextuels plus longues et améliore la généralisation à des tâches inconnues grâce à une conception spécialisée qui compresse efficacement les caractéristiques importantes des exemples contextuels. Il gère ensuite la génération d'images générales avec une reconnaissance améliorée des tâches à partir d'exemples contextuels grâce à une approche d'apprentissage unifiée pour la prédiction de texte et d'images. Nous vérifions ses performances sur diverses tâches de génération d'images existantes et sa généralisation à des tâches inconnues par des expériences approfondies.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle approche de la tâche courante de génération d’images en tirant parti de l’apprentissage basé sur le contexte.
X-L'invite démontre une performance compétitive sur des tâches connues et inconnues.
Gérez de longues séquences de jetons de contexte et améliorez la capacité de généralisation grâce à une compression efficace des fonctionnalités.
Fournit une meilleure reconnaissance des tâches grâce à une approche d’apprentissage intégrée.
Limitations:
Limitations n'est pas spécifiquement mentionné dans l'article. D'autres expériences et analyses sont nécessaires pour mieux comprendre les performances et les limites du modèle. Par exemple, une analyse comparative plus détaillée avec d'autres modèles VLM est nécessaire. De plus, la dégradation potentielle des performances dans certains types de tâches de génération d'images est peu abordée.
👍