Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GLM-4.1V-Pensée : Vers un raisonnement multimodal polyvalent avec un apprentissage par renforcement évolutif

Created by
  • Haebom

Auteur

Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Leyi Pan, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianle Gong, Wenkai Li, Wei Jia, Xin Lyu, Xuancheng Huang, Yanling Wang, Yadong Xu, Juanzi Li, Minlie Huang, Yuxiao Dong et Jie Tang.

Contour

GLM-4.1V-Thinking est un modèle vision-langage (VLM) conçu pour faire progresser le raisonnement multimodal général. Nous développons un modèle puissant basé sur la vision grâce à un pré-entraînement à grande échelle et obtenons des améliorations de performances significatives sur un large éventail de tâches (résolution de problèmes STEM, compréhension vidéo, reconnaissance de contenu, codage, ancrage, agents basés sur des interfaces utilisateur graphiques, compréhension de textes longs, etc.) grâce à l'apprentissage par renforcement avec échantillonnage de programmes (RLCS). Avec des paramètres 9B, GLM-4.1V-9B-Thinking atteint des performances de pointe parmi les modèles homologues, surpassant Qwen2.5-VL-7B sur la plupart des tâches dans 28 benchmarks publics, et obtenant des performances égales ou supérieures à celles du Qwen2.5-VL-72B, bien plus performant, sur 18 benchmarks. Il est également compétitif, voire supérieur, à des modèles privés tels que GPT-4o sur des tâches complexes comme la compréhension de textes longs et le raisonnement STEM. Le code, les modèles et les informations supplémentaires sont disponibles sur https://github.com/THUDM/GLM-4.1V-Thinking .

Takeaways, Limitations

Takeaways:
Nous présentons un cadre d’apprentissage VLM efficace combinant un pré-apprentissage à grande échelle et un RLCS.
Atteint des performances compétitives (en particulier la compréhension de textes longs et l'inférence STEM) en tant que modèle de paramètres 9B.
Il présente d’excellentes performances dans diverses tâches et contribue au développement de l’inférence multimodale à usage général.
Contribuer à l’activation de la recherche par la divulgation de sources ouvertes.
Limitations:
Manque de référence à un Limitations spécifique (non explicitement mentionné dans le document)
Un examen plus approfondi est nécessaire pour déterminer si les résultats de référence peuvent être généralisés.
Potentiel de biais de performance pour des tâches spécifiques.
👍