Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Seed1.5-VL Technical Report

Created by
  • Haebom

저자

Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song

개요

Seed1.5-VL은 범용적인 다중 모달 이해 및 추론을 발전시키기 위해 설계된 비전-언어 기반 모델입니다. 5억 3200만 파라미터의 비전 인코더와 200억 활성 파라미터의 전문가 혼합(MoE) LLM으로 구성되어 있습니다. 비교적 작은 아키텍처에도 불구하고 광범위한 공개 VLM 벤치마크와 내부 평가 세트에서 강력한 성능을 제공하며, 60개의 공개 벤치마크 중 38개에서 최첨단 성능을 달성했습니다. 또한 GUI 제어 및 게임 플레이와 같은 에이전트 중심 작업에서 OpenAI CUA 및 Claude 3.7을 포함한 주요 다중 모달 시스템을 능가합니다. 시각 및 비디오 이해를 넘어 강력한 추론 능력을 보여주어 시각 퍼즐과 같은 다중 모달 추론 과제에 특히 효과적입니다. 이러한 기능은 다양한 작업에서 더 폭넓은 응용 프로그램을 가능하게 할 것으로 기대됩니다. 본 보고서에서는 주로 모델 설계, 데이터 구성 및 다양한 단계의 훈련에 걸쳐 Seed1.5-VL을 구축하는 경험에 대한 종합적인 검토를 제공하여 향후 연구에 영감을 주고자 합니다. Seed1.5-VL은 https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428)에서 이용 가능합니다.

시사점, 한계점

시사점:
비교적 작은 크기의 모델로 다양한 벤치마크에서 최첨단 성능 달성.
에이전트 중심 작업(GUI 제어, 게임 플레이)에서 우수한 성능.
시각적 퍼즐 등 다중 모달 추론 과제에 효과적.
다양한 작업에 대한 광범위한 응용 가능성 제시.
모델 설계, 데이터 구성, 훈련 과정에 대한 상세한 경험 공유.
한계점:
60개 벤치마크 중 22개에서는 최첨단 성능을 달성하지 못함. 구체적인 한계점이나 성능 저하 원인에 대한 분석 부족.
공개된 정보만으로는 모델의 한계점을 명확히 판단하기 어려움.
모델의 일반화 능력에 대한 추가적인 평가 필요.
👍