Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

GLM-4.1V-Suy nghĩ và GLM-4.5V: Hướng tới lý luận đa phương thức linh hoạt với học tăng cường có khả năng mở rộng

Created by
  • Haebom

Tác giả

ĐộI V, Wenyi Hong, Wemeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, Shuaiqi Duan, Weihan Wang, Yan Wang, Yean Cheng, Zehai He, Zhe Su, Zhen Yang, Ziyang Pan, Aohan Zeng, Baoxu Wang, Bin Chen, Boyan Shi, Changyu Pang, Chenhui Zhang, Da Yin, Fan Yang, Guoqing Chen, Jiazheng Xu, Jiale Zhu, Jiali Chen, Jing Chen, Jinhao Chen, Jinghao Lin, Jinjiang Wang, Junjie Chen, Leqi Lei, Letian Gong, Leyi Pan, Mingdao Liu, Mingzhi Zhang, Qinkai Zheng, Sheng Yang, Shi Zhong, Shiyu Huang, Shuyuan Zhao, Siyan Xue, Shangqin Tu, Shengbiao Meng, Tianshu Zhang, Tianwei Luo, Tianxiang Hao, Wenkai Li, Wei Jia, Xiao Liu, Xiaohan Zhang, Xin Lyu, Huyền Thành Hoàng, Yanling Wang, Yadong Zhang, Zhanxiao Du, Zhenyu Hou, Zhao Xue, Zhengxiao Du, Zihan Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Phác thảo

GLM-4.1V-Thinking và GLM-4.5V là các mô hình ngôn ngữ thị giác (VLM) được thiết kế để nâng cao khả năng hiểu và lập luận đa phương thức đa năng. Bài báo này chia sẻ những phát hiện chính từ quá trình phát triển một khuôn khổ đào tạo dựa trên suy luận. Chúng tôi đã phát triển một mô hình dựa trên thị giác đầy hứa hẹn thông qua quá trình tiền đào tạo quy mô lớn, sau đó đề xuất học tăng cường và lấy mẫu chương trình giảng dạy (RLCS) để cải thiện hiệu suất của mô hình này trên nhiều nhiệm vụ, bao gồm giải quyết vấn đề STEM, hiểu video, nhận dạng nội dung, mã hóa, nối đất, tác nhân dựa trên GUI và diễn giải văn bản dài. Trong một đánh giá toàn diện trên 42 điểm chuẩn công khai, GLM-4.5V đã đạt được hiệu suất tiên tiến trên hầu hết các tác vụ trong số các mô hình nguồn mở có quy mô tương tự và có khả năng cạnh tranh hoặc tốt hơn các mô hình nguồn đóng như Gemini-2.5-Flash trong các nhiệm vụ đầy thách thức như mã hóa và tác nhân GUI. Mô hình GLM-4.1V-9B-Thinking nhỏ hơn cũng duy trì được tính cạnh tranh của mình, vượt trội hơn Qwen2.5-VL-72B trên 29 điểm chuẩn. Cả GLM-4.1V-9B-Thinking và GLM-4.5V đều là mã nguồn mở.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh tính hiệu quả của khuôn khổ đào tạo dựa trên suy luận kết hợp đào tạo trước quy mô lớn và RLCS.
Cung cấp mô hình VLM nguồn mở thể hiện hiệu suất cạnh tranh trong nhiều nhiệm vụ khác nhau.
GLM-4.5V là mẫu mã nguồn mở có hiệu suất cao nhất trong cùng kích thước và thậm chí còn vượt trội hơn các mẫu mã nguồn đóng trong một số tác vụ.
GLM-4.1V-9B-Thinking hoạt động tốt hơn nhiều so với các mẫu lớn hơn.
ĐóNg góp vào nghiên cứu và phát triển bằng cách cung cấp mã nguồn mở cho các mô hình và mã nguồn.
Limitations:
Mã Limitations cụ thể không được đề cập rõ ràng trong bài báo. Vấn đề này có thể được cải thiện thông qua các nghiên cứu trong tương lai.
Sự khác biệt về hiệu suất trên các tiêu chuẩn cụ thể có thể là do sự khác biệt về kiến trúc mô hình hoặc dữ liệu đào tạo và cần phải phân tích thêm.
👍