Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Created by
  • Haebom

저자

V Team, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yanzi Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

개요

GLM-4.1V-Thinking과 GLM-4.5V는 범용적인 다중 모달 이해 및 추론을 향상시키도록 설계된 시각-언어 모델(VLMs)입니다. 본 논문은 추론 중심 훈련 프레임워크 개발에 대한 주요 결과를 공유합니다. 대규모 사전 훈련을 통해 잠재력이 큰 시각 기반 모델을 개발하고, 이후 강화 학습과 커리큘럼 샘플링(RLCS)을 제안하여 다양한 작업(STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 접지, GUI 기반 에이전트, 장문 해석 등) 전반에 걸쳐 모델의 성능을 향상시켰습니다. 42개의 공개 벤치마크에 대한 종합적인 평가에서 GLM-4.5V는 유사한 크기의 오픈소스 모델 중 거의 모든 작업에서 최첨단 성능을 달성했으며, 코딩 및 GUI 에이전트와 같은 어려운 작업에서 Gemini-2.5-Flash와 같은 클로즈드소스 모델과 비교하여 경쟁력 있는 또는 더 나은 결과를 보여주었습니다. 더 작은 GLM-4.1V-9B-Thinking 모델 또한 29개의 벤치마크에서 Qwen2.5-VL-72B보다 우수한 결과를 달성하며 높은 경쟁력을 유지했습니다. GLM-4.1V-9B-Thinking과 GLM-4.5V 모두 오픈소스로 공개되었습니다.

시사점, 한계점

시사점:
대규모 사전 훈련과 RLCS를 결합한 추론 중심 훈련 프레임워크의 효과성을 입증.
다양한 작업에서 경쟁력 있는 성능을 보이는 오픈소스 VLM 모델 제공.
GLM-4.5V는 유사 크기의 오픈소스 모델 중 최고 성능, 일부 작업에서는 클로즈드소스 모델과 비교해도 우수한 성능을 보임.
GLM-4.1V-9B-Thinking은 훨씬 큰 모델보다 우수한 성능을 보임.
모델과 코드를 오픈소스로 공개하여 연구 및 개발에 기여.
한계점:
구체적인 한계점은 논문에서 명시적으로 언급되지 않음. 향후 연구를 통해 개선될 여지가 있음.
특정 벤치마크에서의 성능 차이는 모델의 아키텍처나 훈련 데이터의 차이에 기인할 수 있으며, 더 자세한 분석이 필요함.
👍