Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GLM-4.1V-Suy nghĩ và GLM-4.5V: Hướng tới lý luận đa phương thức linh hoạt với học tăng cường có khả năng mở rộng

Created by
  • Haebom

Tác giả

ĐộI V, Wenyi Hong, Wemeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingde Xu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Tianyu Tong, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Xinyue Fan, Huyền Thành Hoàng, Yanling Wang, Yadong Li, Yutao Zhang, Yuting Wang, Yu Wang, Yuxuan Zhang, Zhao Xue, Zhenyu Hou, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Phác thảo

GLM-4.1V-Thinking và GLM-4.5V là các mô hình ngôn ngữ thị giác (VLM) được thiết kế để nâng cao khả năng hiểu và lập luận đa phương thức đa năng. Bài báo này chia sẻ những phát hiện chính về việc phát triển một khuôn khổ đào tạo dựa trên suy luận. Sau khi phát triển một mô hình dựa trên thị giác có năng lực với tiềm năng đáng kể thông qua quá trình tiền đào tạo quy mô lớn, chúng tôi đề xuất học tăng cường và lấy mẫu chương trình giảng dạy (RLCS) để khai thác tối đa tiềm năng của mô hình trên nhiều nhiệm vụ, bao gồm giải quyết vấn đề STEM, hiểu video, nhận dạng nội dung, mã hóa, nối đất, tác nhân dựa trên GUI và diễn giải tài liệu dài. Trong một đánh giá toàn diện trên 42 điểm chuẩn công khai, GLM-4.5V đạt hiệu suất tiên tiến trên hầu hết các tác vụ trong số các mô hình nguồn mở có quy mô tương tự và có khả năng cạnh tranh hoặc vượt trội hơn các mô hình nguồn đóng như Gemini-2.5-Flash trong các tác vụ đầy thách thức như mã hóa và tác nhân GUI. Trong khi đó, GLM-4.1V-9B-Thinking nhỏ hơn vẫn có sức cạnh tranh cao, vượt trội hơn hẳn Qwen2.5-VL-72B lớn hơn nhiều trong 29 bài kiểm tra chuẩn. Cả GLM-4.1V-9B-Thinking và GLM-4.5V đều là mã nguồn mở.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh tính hiệu quả của khuôn khổ đào tạo dựa trên suy luận kết hợp đào tạo trước quy mô lớn và RLCS.
Cung cấp VLM nguồn mở có khả năng thực hiện tốt nhiều tác vụ khác nhau.
GLM-4.5V đạt hiệu suất tiên tiến nhất trong số các mô hình nguồn mở có kích thước tương tự và vượt trội hơn các mô hình nguồn đóng trong một số tác vụ.
GLM-4.1V-9B-Thinking chứng minh hiệu quả vượt trội so với các mô hình lớn hơn.
ĐóNg góp vào nghiên cứu và phát triển bằng cách cung cấp mã nguồn mở cho các mô hình và mã nguồn.
_____T280677____-:
Bài báo này không đề cập cụ thể đến Limitations. Nghiên cứu sâu hơn dự kiến sẽ mang lại những cải tiến (ví dụ: cải thiện hiệu suất trên các tác vụ cụ thể, nâng cao khả năng mở rộng mô hình và cải thiện khả năng khái quát hóa).
👍