Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Omni-Thinker: Mở rộng khái quát hóa liên miền trong LLM thông qua RL đa nhiệm vụ với phần thưởng kết hợp
Created by
Haebom
Tác giả
Derek Li, Jiaming Zhou, Amirreza Kazemi, Qianyi Sun, Abbas Ghaddar, Mohammad Ali Alomrani, Liheng Ma, Yu Luo, Dong Li, Feng Wen, Jianye Hao, Mark Coates, Yingxue Zhang
Phác thảo
Bài báo này tập trung vào sự tiến bộ của AI mục đích chung dựa trên các mô hình ngôn ngữ quy mô lớn (LLM) thực hiện tốt trên nhiều nhiệm vụ khác nhau. Để giải quyết các vấn đề của các phương pháp điều chỉnh tinh chỉnh có giám sát (SFT) thông thường gặp khó khăn trong việc khái quát hóa và tập trung vào ghi nhớ hơn là học chuyển giao, chúng tôi trình bày Omni-Thinker, một khuôn khổ học tăng cường (RL) tích hợp kết hợp các phần thưởng có thể xác minh dựa trên quy tắc và các tín hiệu ưu tiên tạo ra thông qua đánh giá LLM-as-a-Judge. Omni-Thinker cho phép tối ưu hóa nhất quán trên các loại nhiệm vụ và mở rộng đào tạo dựa trên RL sang miền chủ quan. Nó chứng minh hiệu suất được cải thiện và giảm tình trạng quên thông qua quá trình tiến triển dựa trên chương trình giảng dạy từ các nhiệm vụ có cấu trúc đến các nhiệm vụ mở. Kết quả thử nghiệm trên bốn miền cho thấy học tập theo chương trình giảng dạy cải thiện hiệu suất 5,2% so với đào tạo chung và 9,1% so với hợp nhất mô hình, nhấn mạnh tầm quan trọng của lấy mẫu nhận biết nhiệm vụ và giám sát kết hợp trong việc mở rộng đào tạo sau dựa trên RL cho các LLM mục đích chung.
Takeaways, Limitations
•
Takeaways:
◦
Chúng tôi chứng minh rằng Omni-Thinker là một khuôn khổ RL hiệu quả để cải thiện hiệu suất LLM trong nhiều nhiệm vụ khác nhau.
◦
Chúng tôi chứng minh rằng chiến lược học tập dựa trên chương trình giảng dạy cải thiện hiệu suất và khả năng tổng quát của đào tạo LLM dựa trên RL.
◦
Chúng tôi nhấn mạnh tầm quan trọng của việc lấy mẫu theo nhiệm vụ và giám sát kết hợp.
◦
Chúng tôi trình bày một phương pháp mới để mở rộng đào tạo dựa trên RL sang lĩnh vực chủ quan.
•
Limitations:
◦
Các thí nghiệm được trình bày chỉ giới hạn ở bốn lĩnh vực và cần có thêm các thí nghiệm trên nhiều nhiệm vụ và phạm vi đa dạng hơn.
◦
Cần phải phân tích thêm về độ tin cậy và tính khách quan của đánh giá LLM-as-a-Judge.
◦
Cần nghiên cứu thêm để tối ưu hóa và khái quát hóa thiết kế chương trình giảng dạy.
◦
Cần có một phân tích chi tiết hơn về chi phí tính toán và hiệu quả của Omni-Thinker.