Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Ovis-U1 Technical Report

Created by
  • Haebom

저자

Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen

개요

Ovis-U1은 30억 개의 파라미터를 가진 통합 모델로, 다중 모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 통합합니다. Ovis 시리즈를 기반으로 확산 기반 비주얼 디코더와 양방향 토큰 리파이너를 통합하여 GPT-4o와 비슷한 이미지 생성 성능을 달성합니다. 기존의 생성 작업을 위해 고정된 MLLM을 사용하는 모델과 달리, 언어 모델부터 시작하는 새로운 통합 학습 방식을 사용합니다. 이해 또는 생성 작업에 대한 단독 학습보다 통합 학습이 더 나은 성능을 보여줍니다. OpenCompass Multi-modal Academic Benchmark에서 69.6점을 기록하여 Ristretto-3B 및 SAIL-VL-1.5-2B와 같은 최신 최첨단 모델을 능가합니다. 텍스트-이미지 생성에서는 DPG-Bench와 GenEval 벤치마크에서 각각 83.72점과 0.89점을 기록했습니다. 이미지 편집에서는 ImgEdit-Bench와 GEdit-Bench-EN에서 각각 4.00점과 6.42점을 달성했습니다. Ovis 통합 모델 시리즈의 첫 번째 버전으로서 다중 모달 이해, 생성 및 편집의 한계를 넓혔습니다.

시사점, 한계점

시사점:
30억 파라미터의 비교적 작은 크기로 다중 모달 작업(이해, 생성, 편집)에서 최첨단 성능 달성.
기존 모델들과 달리 언어 모델부터 시작하는 통합 학습 방식의 효과성을 입증.
다양한 벤치마크에서 우수한 성능을 보임.
한계점:
Ovis-U1은 시리즈의 첫 번째 버전으로, 향후 버전에서 더욱 개선될 여지가 있음.
구체적인 학습 데이터셋, 하이퍼파라미터 등 세부적인 정보가 부족함.
다른 최첨단 모델과의 비교 분석이 더욱 자세히 제시될 필요가 있음.
👍