Ovis-U1 est un modèle unifié de 3 milliards de paramètres, intégrant la compréhension multimodale, la conversion de texte en image et l'édition d'images. Basé sur la série Ovis, il intègre un décodeur visuel par diffusion et un affineur de jetons bidirectionnel pour atteindre des performances de génération d'images similaires à celles de GPT-4o. Contrairement aux modèles utilisant un MLLM fixe pour les tâches de génération conventionnelles, il utilise une nouvelle approche d'apprentissage unifié basée sur un modèle de langage. L'apprentissage unifié est plus performant que l'apprentissage unique, que ce soit pour la compréhension ou la génération. Il obtient un score de 69,6 au benchmark académique multimodal OpenCompass, surpassant ainsi les modèles de pointe récents tels que Ristretto-3B et SAIL-VL-1.5-2B. En génération de texte en image, il obtient respectivement 83,72 et 0,89 aux benchmarks DPG-Bench et GenEval. En édition d'images, il obtient respectivement 4,00 et 6,42 aux benchmarks ImgEdit-Bench et GEdit-Bench-EN. En tant que première version de la série de modèles intégrés Ovis, elle repousse les limites de la compréhension, de la création et de l'édition multimodales.