Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Created by
  • Haebom

저자

Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Leyi Pan, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianle Gong, Wenkai Li, Wei Jia, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

개요

GLM-4.1V-Thinking은 범용 다중 모드 추론을 발전시키기 위해 설계된 시각-언어 모델(VLM)입니다. 대규모 사전 학습을 통해 강력한 시각 기반 모델을 개발하고, 커리큘럼 샘플링을 사용한 강화 학습(RLCS)을 통해 다양한 작업(STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 접지, GUI 기반 에이전트, 장문 이해 등)에서 광범위한 성능 향상을 이끌어냈습니다. 9B 매개변수를 가진 GLM-4.1V-9B-Thinking은 동급 모델 중 최첨단 성능을 달성하며, 28개의 공개 벤치마크에서 Qwen2.5-VL-7B를 대부분의 작업에서 능가하고, 훨씬 큰 Qwen2.5-VL-72B와 비교하여 18개 벤치마크에서 동등하거나 우수한 성능을 보였습니다. 장문 이해 및 STEM 추론과 같은 어려운 작업에서 GPT-4o와 같은 비공개 모델과 비교하여 경쟁력 있거나 우수한 성능을 보였습니다. 코드, 모델 및 추가 정보는 https://github.com/THUDM/GLM-4.1V-Thinking 에서 공개됩니다.

시사점, 한계점

시사점:
대규모 사전 학습과 RLCS를 결합한 효과적인 VLM 학습 프레임워크 제시.
9B 매개변수 모델로써 경쟁력 있는 성능(특히 장문 이해, STEM 추론) 달성.
다양한 작업에서 우수한 성능을 보이며 범용 다중 모드 추론의 발전에 기여.
오픈소스 공개를 통한 연구 활성화 기여.
한계점:
구체적인 한계점에 대한 언급 부족. (논문에서 명시적으로 언급되지 않음)
벤치마크 결과의 일반화 가능성에 대한 추가적인 검토 필요.
특정 작업에 대한 성능 편향 가능성.
👍