Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Created by
  • Haebom

저자

V Team, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Wenkai Li, Wei Jia, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xue, Yanfeng Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuxuan Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

개요

GLM-4.1V-Thinking은 범용적인 다중 모달 이해 및 추론을 향상시키기 위해 설계된 시각-언어 모델(VLM)입니다. 본 논문에서는 추론 중심 훈련 프레임워크 개발에 대한 주요 결과를 공유합니다. 대규모 사전 훈련을 통해 상당한 잠재력을 가진 강력한 시각 기반 모델을 개발하고, 이후 강화 학습과 커리큘럼 샘플링(RLCS)을 제안하여 다양한 작업(STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 그라운딩, GUI 기반 에이전트, 장문 이해 등)에서 모델의 잠재력을 최대한 발휘하도록 합니다. 본 연구에서는 90억 매개변수를 가진 GLM-4.1V-9B-Thinking을 오픈소스로 공개하며, 이는 유사한 크기의 모델 중 최첨단 성능을 달성합니다. 28개의 공개 벤치마크에 대한 종합적인 평가에서, 본 모델은 거의 모든 작업에서 Qwen2.5-VL-7B를 능가하며, 훨씬 큰 Qwen2.5-VL-72B와 비교하여 18개의 벤치마크에서 동등하거나 우수한 성능을 달성합니다. 특히 GLM-4.1V-9B-Thinking은 장문 이해 및 STEM 추론과 같은 어려운 작업에서 GPT-4o와 같은 비공개 모델과 비교하여 경쟁력 있거나 우수한 성능을 보여줍니다. 코드, 모델 및 자세한 정보는 https://github.com/THUDM/GLM-4.1V-Thinking 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
대규모 사전 훈련과 RLCS를 통해 다양한 작업에서 우수한 성능을 달성하는 경량화된 VLM을 개발했습니다.
유사 규모의 모델 중 최첨단 성능을 달성하며, 훨씬 큰 모델과 비교해도 경쟁력 있는 성능을 보입니다.
장문 이해 및 STEM 추론과 같은 어려운 작업에서도 우수한 성능을 보여줍니다.
모델과 코드를 오픈소스로 공개하여 연구 발전에 기여합니다.
한계점:
본 논문에서 제시된 벤치마크의 종류 및 수가 한계일 수 있습니다. 더욱 다양하고 광범위한 벤치마크 평가가 필요합니다.
특정 작업에 대한 성능 향상의 이유에 대한 자세한 분석이 부족할 수 있습니다. 내부 메커니즘에 대한 더 깊이 있는 연구가 필요합니다.
모델의 에너지 효율성, 혹은 환경적 영향에 대한 논의가 부족합니다.
👍