Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Luật mở rộng quy mô của Agent RL: Agent RL với khả năng thực thi mã tự phát để giải quyết vấn đề toán học

Created by
  • Haebom

Tác giả

Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

Phác thảo

Trong bài báo này, chúng tôi trình bày phương pháp luận Zero-shot Tool-Integrated Reasoning (ZeroTIR) sử dụng học tăng cường (RL) để cho phép các mô hình ngôn ngữ quy mô lớn (LLM) tự động sử dụng các công cụ bên ngoài (thực thi mã Python) nhằm nâng cao khả năng giải quyết vấn đề toán học. Điều quan trọng là huấn luyện LLM để tạo và thực thi mã Python bằng cách áp dụng RL với phần thưởng dựa trên kết quả, mà không cần các ví dụ sử dụng công cụ có giám sát. Kết quả thực nghiệm cho thấy tần suất thực thi mã tự động, độ dài phản hồi và độ chính xác cuối cùng đều tăng theo chiều hướng tích cực khi tăng các bước huấn luyện RL, cho thấy mối quan hệ định lượng giữa nỗ lực huấn luyện và việc tiếp thu các chiến lược sử dụng công cụ hiệu quả. Chúng tôi triển khai một khuôn khổ mạnh mẽ sử dụng các thuật toán và khuôn khổ RL tiêu chuẩn, và chứng minh rằng nó vượt trội hơn các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng phần thưởng dựa trên kết quả RL có thể dạy hiệu quả cho các LLM khả năng sử dụng các công cụ bên ngoài một cách tự chủ.
Chúng tôi cung cấp cơ sở cho nghiên cứu trong tương lai bằng cách làm sáng tỏ mối quan hệ định lượng giữa giai đoạn đào tạo và cải thiện hiệu suất.
Phương pháp ZeroTIR được đề xuất có hiệu quả vượt trội hơn các phương pháp hiện có trong việc giải quyết các bài toán khó.
Chúng tôi hỗ trợ nghiên cứu tiếp theo bằng cách công khai các mã và môi trường nghiên cứu có thể tái tạo.
Limitations:
Hiện tại chỉ giới hạn ở việc chạy mã Python, cần nghiên cứu thêm về khả năng mở rộng của nó để tận dụng các loại công cụ khác.
Phạm vi các chuẩn mực toán học được sử dụng có thể bị hạn chế và cần đánh giá hiệu suất trên nhiều loại bài toán khác nhau.
Chi phí tính toán cho đào tạo RL có thể rất đáng kể và cần nghiên cứu thêm để phát triển các phương pháp đào tạo hiệu quả.
👍