Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rapport technique Ovis-U1

Created by
  • Haebom

Auteur

Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen

Contour

Ovis-U1 est un modèle unifié de 3 milliards de paramètres, intégrant la compréhension multimodale, la conversion de texte en image et l'édition d'images. Basé sur la série Ovis, il intègre un décodeur visuel par diffusion et un affineur de jetons bidirectionnel pour atteindre des performances de génération d'images similaires à celles de GPT-4o. Contrairement aux modèles utilisant un MLLM fixe pour les tâches de génération conventionnelles, il utilise une nouvelle approche d'apprentissage unifié basée sur un modèle de langage. L'apprentissage unifié est plus performant que l'apprentissage unique, que ce soit pour la compréhension ou la génération. Il obtient un score de 69,6 au benchmark académique multimodal OpenCompass, surpassant ainsi les modèles de pointe récents tels que Ristretto-3B et SAIL-VL-1.5-2B. En génération de texte en image, il obtient respectivement 83,72 et 0,89 aux benchmarks DPG-Bench et GenEval. En édition d'images, il obtient respectivement 4,00 et 6,42 aux benchmarks ImgEdit-Bench et GEdit-Bench-EN. En tant que première version de la série de modèles intégrés Ovis, elle repousse les limites de la compréhension, de la création et de l'édition multimodales.

Takeaways, Limitations

Takeaways:
Atteindre des performances de pointe sur des tâches multimodales (compréhension, génération, édition) avec une taille relativement petite de 3 milliards de paramètres.
Contrairement aux modèles existants, nous démontrons l’efficacité d’une méthode d’apprentissage intégrée qui commence par un modèle de langage.
Il obtient de bons résultats dans divers benchmarks.
Limitations:
L'Ovis-U1 est la première version de la série et il y a de la place pour d'autres améliorations dans les versions futures.
Manque d'informations détaillées telles que des ensembles de données d'entraînement spécifiques, des hyperparamètres, etc.
Une analyse comparative plus détaillée avec d’autres modèles de pointe est nécessaire.
👍