Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GLM-4.1V-Thinking and GLM-4.5V: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

Created by
  • Haebom

作者

Vチーム、Wenyi Hong、Wenmeng Yu、Xiaotao Gu、Guo Wang、Guobing Gan、Haomiao Tang、Jiale Cheng、Ji Qi、Junhui Ji、Lihang Pan、Shuaiqi Duan、Weihan Wang、Yan Wang、Yean Cheng、Zehai He、Zhe Su、Zhen Yang、Zi Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Xue, Yanfeng Wang, Yanzi Wang, Yifan An, Yifan Du, Yiming Shi, Yiheng Huang, Yilin Niu, Yuan Wang, Yuanchang Yue, Yuchen Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhanxiao Du, Zhenyuu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

概要

GLM-4.1V-ThinkingとGLM-4.5Vは、汎用的なマルチモーダル理解と推論を向上させるように設計されたビジュアル言語モデル(VLM)です。この論文は、推論指向のトレーニングフレームワーク開発の主な結果を共有しています。大規模な事前トレーニングにより、潜在性の高いビジュアルベースのモデルを開発し、その後強化学習とカリキュラムサンプリング(RLCS)を提案し、さまざまなタスク(STEMのトラブルシューティング、ビデオ理解、コンテンツ認識、コーディング、アース、GUIベースのエージェント、長文解析など)全体でモデルのパフォーマンスを向上させました。 42のオープンベンチマークの包括的な評価で、GLM-4.5Vは同様のサイズのオープンソースモデルのほとんどすべての作業で最先端のパフォーマンスを達成し、コーディングやGUIエージェントなどの困難な作業でGemini-2.5-Flashなどのクローズドソースモデルと比較して競争力のあるまたはより良い結果を示しました。より小さなGLM-4.1V-9B-Thinkingモデルも、29のベンチマークでQwen2.5-VL-72Bより優れた結果を達成し、高い競争力を維持しました。 GLM-4.1V-9B-ThinkingとGLM-4.5Vの両方がオープンソースで公開されました。

Takeaways、Limitations

Takeaways:
大規模事前訓練とRLCSを組み合わせた推論指向訓練フレームワークの有効性を実証
さまざまな作業で競争力のあるパフォーマンスを見せるオープンソースVLMモデルを提供。
GLM-4.5Vは類似サイズのオープンソースモデルの中で最高性能、一部の作業ではクローズドソースモデルと比べても優れた性能を見せる。
GLM-4.1V-9B-Thinkingは、はるかに大きなモデルよりも優れた性能を示しています。
モデルとコードをオープンソースで公開し、研究開発に貢献。
Limitations:
具体的なLimitationsは論文で明示的に言及されていない。今後の研究を通じて改善される余地がある。
特定のベンチマークでのパフォーマンスの違いは、モデルのアーキテクチャやトレーニングデータの違いに起因する可能性があり、より詳細な分析が必要です。
👍