Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Luật mở rộng quy mô của Agent RL: Agent RL với khả năng thực thi mã tự phát để giải quyết vấn đề toán học

Created by
  • Haebom

Tác giả

Xinji Mai, Haotian Xu, Zhong-Zhi Li, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

Phác thảo

Bài báo này trình bày khuôn khổ ZeroTIR, thực hiện Lý luận tích hợp công cụ (TIR) ​​bằng cách sử dụng học tăng cường (RL) từ phần thưởng dựa trên kết quả. ZeroTIR huấn luyện một mô hình ngôn ngữ quy mô lớn (LLM) được đào tạo trước để tự động tạo và thực thi mã Python cho các bài toán toán học, mà không cần các ví dụ về việc sử dụng công cụ học có giám sát. Kết quả thử nghiệm chứng minh mối tương quan tích cực mạnh mẽ giữa việc tăng các bước đào tạo RL và tần suất thực thi mã tự động, độ dài phản hồi trung bình và độ chính xác của nhiệm vụ cuối cùng. Điều này chứng minh về mặt định lượng mối quan hệ giữa nỗ lực tính toán được đầu tư vào đào tạo và sự xuất hiện của các chiến lược lý luận được tăng cường bằng công cụ hiệu quả. Chúng tôi cũng chứng minh rằng ZeroTIR vượt trội đáng kể so với các mô hình cơ sở ZeroRL không có công cụ hiện có trên các điểm chuẩn toán học. Bằng cách cung cấp một khuôn khổ mạnh mẽ và các điểm chuẩn có thể tái tạo, chúng tôi đóng góp cho nghiên cứu trong tương lai.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng phần thưởng dựa trên kết quả RL có thể cho phép LLM tự nguyện sử dụng các công cụ bên ngoài (thực thi mã Python) để cải thiện khả năng suy luận toán học của họ.
Chúng tôi hiểu sâu hơn về quá trình học công cụ bằng cách khám phá mối tương quan định lượng giữa các bước đào tạo RL và tần suất thực thi mã, độ dài phản hồi và độ chính xác.
Khung ZeroTIR góp phần vào nghiên cứu suy luận dựa trên công cụ trong tương lai bằng cách cung cấp các chuẩn mực có thể tái tạo.
Chúng tôi trình bày một phương pháp mới để cải thiện hiệu quả học cách sử dụng công cụ.
Limitations:
Hiện tại, nó chỉ giới hạn ở các bài toán toán học và khả năng tổng quát hóa của nó sang các loại bài toán khác cần được nghiên cứu thêm.
Hiệu suất có thể thay đổi tùy thuộc vào loại và phạm vi của chuẩn mực được sử dụng.
Cần phải cân nhắc đến tính ổn định và bảo mật của môi trường thực thi mã.
Có thể thiếu khả năng diễn giải đối với các quá trình lý luận phức tạp.
👍