Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Created by
  • Haebom

Auteur

ÉQuipe V, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Contour

GLM-4.1V-Thinking et GLM-4.5V sont des modèles vision-langage (VLM) conçus pour améliorer la compréhension et le raisonnement multimodaux à usage général. Cet article présente les principaux résultats du développement d'un cadre d'apprentissage piloté par l'inférence. Nous avons développé un modèle visionnaire prometteur grâce à un pré-apprentissage à grande échelle, puis proposé l'apprentissage par renforcement et l'échantillonnage de programmes (RLCS) pour améliorer ses performances dans un large éventail de tâches, notamment la résolution de problèmes STEM, la compréhension vidéo, la reconnaissance de contenu, le codage, la mise à la terre, les agents basés sur des interfaces graphiques et l'interprétation de textes longs. Lors d'une évaluation complète portant sur 42 benchmarks publics, GLM-4.5V a atteint des performances de pointe dans presque toutes les tâches parmi des modèles open source de taille similaire, et s'est montré compétitif, voire supérieur, à des modèles propriétaires tels que Gemini-2.5-Flash pour des tâches complexes telles que le codage et les agents d'interface graphique. Le modèle GLM-4.1V-9B-Thinking, plus petit, a également conservé sa compétitivité, surpassant le Qwen2.5-VL-72B sur 29 benchmarks. GLM-4.1V-9B-Thinking et GLM-4.5V sont tous deux open source.

Takeaways, Limitations_

Takeaways:
Nous démontrons l’efficacité d’un cadre de formation basé sur l’inférence qui combine une pré-formation à grande échelle et un RLCS.
Fournir un modèle VLM open source qui démontre des performances compétitives dans une variété de tâches.
Le GLM-4.5V est le modèle open source le plus performant de sa taille et surpasse même les modèles à source fermée dans certaines tâches.
Le GLM-4.1V-9B-Thinking surpasse les modèles beaucoup plus grands.
Contribuer à la recherche et au développement en open-sourceant des modèles et du code.
Limitations:
Le Limitations spécifique n'est pas explicitement mentionné dans l'article. Des recherches ultérieures pourraient améliorer cette situation.
Les différences de performances sur des benchmarks spécifiques peuvent être dues à des différences dans l’architecture du modèle ou dans les données de formation et nécessitent une analyse plus approfondie.
👍