Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Thúc đẩy lý luận đa phương thức thông qua học tăng cường với khởi động lạnh

Created by
  • Haebom

Tác giả

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

Phác thảo

Trong bài báo này, chúng tôi nghiên cứu vai trò của học tăng cường (RL) trong việc cải thiện khả năng suy luận chuỗi suy nghĩ của các mô hình ngôn ngữ quy mô lớn (LLM). Trước tiên, chúng tôi chứng minh rằng các mẫu 'khoảnh khắc aha' (phản xạ thông qua tự hiệu chỉnh) tồn tại ngay cả trước khi huấn luyện RL trong các LLM đa phương thức (MLLM), nhưng chúng có thể không tương quan với việc cải thiện hiệu suất suy luận. Dựa trên điều này, chúng tôi trình bày một phương pháp hai bước kết hợp tinh chỉnh học có giám sát (SFT) sử dụng các mẫu suy luận chuỗi suy nghĩ có cấu trúc và học tăng cường sử dụng GRPO. Kết quả thực nghiệm cho thấy phương pháp này vượt trội hơn các phương pháp chỉ sử dụng SFT và chỉ sử dụng RL trên nhiều chuẩn mực suy luận đa phương thức. Nó đạt được hiệu suất tiên tiến nhất trong số các MLLM nguồn mở cho cả mô hình 3B và 7B, và đặc biệt, mô hình 7B cải thiện đáng kể hiệu suất so với các mô hình cơ sở (ví dụ: MathVista 66,3% → 73,4%, We-Math 62,9% → 70,4%). Nghiên cứu này cung cấp hướng dẫn thực tế để xây dựng các mô hình suy luận đa phương thức nâng cao và mã nguồn được công khai trên GitHub.

Takeaways, Limitations

Takeaways:
Một phương pháp tiếp cận hai bước hiệu quả (SFT + RL) để cải thiện lập luận chuỗi suy nghĩ trong LLM đa phương thức được trình bày.
Kết hợp SFT và RL để đạt được hiệu suất tiên tiến nhất trên MLLM nguồn mở.
Chúng tôi tiết lộ rằng các mẫu 'khoảnh khắc aha' không phải lúc nào cũng trực tiếp dẫn đến hiệu suất suy luận được cải thiện.
Thể hiện khả năng mở rộng cho kích thước mô hình bằng cách hiển thị cải tiến về hiệu suất trên cả mô hình 3B và 7B.
Limitations:
Cần có thêm nghiên cứu về hiệu suất tổng quát của phương pháp được trình bày trong nghiên cứu này.
Cần phải thử nghiệm trên nhiều tập dữ liệu đa phương thức khác nhau.
Cần có một phân tích sâu hơn về mối quan hệ giữa các mô hình 'khoảnh khắc aha' và hiệu suất suy luận.
👍