Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Created by
  • Haebom

저자

V Team, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingde Xu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianyu Tong, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xinyue Fan, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yanzi Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhao Xue, Zhenyu Hou, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

개요

GLM-4.1V-Thinking과 GLM-4.5V는 범용적인 다중 모달 이해와 추론을 향상시키도록 설계된 시각-언어 모델(VLMs)입니다. 본 논문은 추론 중심 훈련 프레임워크 개발에 대한 주요 결과를 공유하며, 대규모 사전 훈련을 통해 상당한 잠재력을 가진 능력 있는 시각 기반 모델을 개발한 후, 강화 학습과 커리큘럼 샘플링(RLCS)을 제안하여 다양한 작업(STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 접지, GUI 기반 에이전트, 긴 문서 해석 등) 전반에 걸쳐 모델의 잠재력을 최대한 발휘하게 합니다. 42개의 공개 벤치마크에 대한 종합적인 평가에서 GLM-4.5V는 유사한 크기의 오픈소스 모델 중 거의 모든 작업에서 최첨단 성능을 달성했으며, 코딩 및 GUI 에이전트와 같은 어려운 작업에서 Gemini-2.5-Flash와 같은 클로즈드 소스 모델과 비교하여 경쟁력 있거나 우수한 결과를 보여줍니다. 한편, 더 작은 GLM-4.1V-9B-Thinking은 29개의 벤치마크에서 훨씬 더 큰 Qwen2.5-VL-72B보다 우수한 결과를 달성하며 높은 경쟁력을 유지합니다. GLM-4.1V-9B-Thinking과 GLM-4.5V는 모두 오픈소스로 공개됩니다.

시사점, 한계점

시사점:
대규모 사전 훈련과 RLCS를 결합한 추론 중심 훈련 프레임워크의 효과성을 입증.
다양한 작업에서 우수한 성능을 보이는 오픈소스 VLM을 제공.
GLM-4.5V는 유사 크기의 오픈소스 모델 중 최첨단 성능을 달성하고, 일부 작업에서는 클로즈드 소스 모델을 능가.
GLM-4.1V-9B-Thinking은 더 큰 모델보다 우수한 성능을 보이며 효율성을 증명.
모델과 코드를 오픈소스로 공개하여 연구 및 개발에 기여.
한계점:
본 논문에서는 특정 한계점에 대한 명시적인 언급이 없음. 추가적인 연구를 통해 개선될 수 있는 여지가 있을 것으로 예상됨. (예: 특정 작업에 대한 성능 개선, 모델의 확장성 및 일반화 능력 향상 등)
👍