Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Pensamiento GLM-4.1V y GLM-4.5V: Hacia un razonamiento multimodal versátil con aprendizaje de refuerzo escalable

Created by
  • Haebom

Autor

Equipo V, Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingde Xu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianyu Tong, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xinyue Fan, Xuancheng Huang, Yanling Wang, Yadong Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhao Xue, Zhenyu Hou, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Describir

GLM-4.1V-Thinking y GLM-4.5V son modelos de visión-lenguaje (VLM) diseñados para mejorar la comprensión y el razonamiento multimodal de propósito general. Este artículo comparte hallazgos clave sobre el desarrollo de un marco de entrenamiento basado en inferencia. Tras desarrollar un modelo basado en visión con un potencial significativo mediante preentrenamiento a gran escala, proponemos el aprendizaje por refuerzo y el muestreo curricular (RLCS) para aprovechar al máximo el potencial del modelo en una amplia gama de tareas, incluyendo la resolución de problemas STEM, la comprensión de videos, el reconocimiento de contenido, la codificación, la puesta a tierra, los agentes basados en GUI y la interpretación de documentos extensos. En una evaluación exhaustiva de 42 puntos de referencia públicos, GLM-4.5V alcanza un rendimiento de vanguardia en prácticamente todas las tareas entre modelos de código abierto de tamaño similar, y es competitivo o superior a modelos de código cerrado como Gemini-2.5-Flash en tareas complejas como la codificación y los agentes GUI. Mientras tanto, el GLM-4.1V-9B-Thinking, de menor tamaño, se mantiene altamente competitivo, superando al Qwen2.5-VL-72B, de mayor tamaño, en 29 pruebas de referencia. Tanto el GLM-4.1V-9B-Thinking como el GLM-4.5V son de código abierto.

Takeaways, Limitations

Takeaways:
Demostramos la eficacia de un marco de entrenamiento basado en inferencias que combina preentrenamiento a gran escala y RLCS.
Proporciona un VLM de código abierto que funciona bien en una variedad de tareas.
El GLM-4.5V logra un rendimiento de última generación entre modelos de código abierto de tamaño similar y supera a los modelos de código cerrado en algunas tareas.
El GLM-4.1V-9B-Thinking demuestra eficiencia y supera a los modelos más grandes.
Contribuir a la investigación y el desarrollo mediante la apertura de modelos y códigos.
Limitations:
Este artículo no aborda explícitamente el problema Limitations. Se espera que futuras investigaciones produzcan mejoras (por ejemplo, mejor rendimiento en tareas específicas, mayor escalabilidad del modelo y mayor generalización).
👍