Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GLM-4.1V-Thinking et GLM-4.5V : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Created by
  • Haebom

Auteur

ÉQuipe V, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingde Xu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianyu Tong, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xinyue Fan, Xuancheng Huang, Yanling Wang, Yadong Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhao Xue, Zhenyu Hou, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Contour

GLM-4.1V-Thinking et GLM-4.5V sont des modèles vision-langage (VLM) conçus pour améliorer la compréhension et le raisonnement multimodaux à usage général. Cet article présente les principales conclusions du développement d'un cadre d'apprentissage piloté par l'inférence. Après avoir développé un modèle vision-langage performant et doté d'un potentiel significatif grâce à un pré-apprentissage à grande échelle, nous proposons l'apprentissage par renforcement et l'échantillonnage de programmes (RLCS) afin d'exploiter pleinement le potentiel du modèle dans un large éventail de tâches, notamment la résolution de problèmes STEM, la compréhension vidéo, la reconnaissance de contenu, le codage, la mise à la terre, les agents basés sur des interfaces graphiques et l'interprétation de documents longs. Dans une évaluation complète portant sur 42 benchmarks publics, GLM-4.5V atteint des performances de pointe dans presque toutes les tâches parmi les modèles open source de taille similaire, et est compétitif, voire supérieur, aux modèles propriétaires tels que Gemini-2.5-Flash pour des tâches complexes comme le codage et les agents d'interface graphique. Parallèlement, le GLM-4.1V-9B-Thinking, plus petit, reste très compétitif, surpassant le Qwen2.5-VL-72B, bien plus imposant, sur 29 benchmarks. GLM-4.1V-9B-Thinking et GLM-4.5V sont tous deux open source.

Takeaways, Limitations

Takeaways:
Nous démontrons l’efficacité d’un cadre de formation basé sur l’inférence qui combine une pré-formation à grande échelle et un RLCS.
Fournit un VLM open source qui fonctionne bien dans une variété de tâches.
Le GLM-4.5V atteint des performances de pointe parmi les modèles open source de taille similaire et surpasse les modèles à source fermée dans certaines tâches.
Le GLM-4.1V-9B-Thinking démontre son efficacité en surpassant les modèles plus grands.
Contribuer à la recherche et au développement en open-sourceant des modèles et du code.
Limitations:
Cet article n'aborde pas explicitement les Limitations spécifiques. Des recherches supplémentaires devraient apporter des améliorations (par exemple, de meilleures performances sur des tâches spécifiques, une meilleure évolutivité du modèle et une meilleure généralisation).
👍