Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tối ưu hóa chính sách nhóm trong nhóm cho đào tạo đại lý LLM

Created by
  • Haebom

Tác giả

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

Phác thảo

Bài báo này đề xuất thuật toán Tối ưu hóa Chính sách Nhóm trong Nhóm (GiGPO), một thuật toán mới giải quyết các thách thức về khả năng mở rộng của việc đào tạo tác nhân mô hình ngôn ngữ (LLM) quy mô lớn, dài hạn bằng cách sử dụng học tăng cường dựa trên nhóm (RL). Trong khi vẫn duy trì các ưu điểm của RL dựa trên nhóm hiện có (không cần người đánh giá, chiếm ít bộ nhớ và hội tụ ổn định), thuật toán này đạt được sự phân bổ tín dụng ở cấp độ giai đoạn chi tiết thông qua cấu trúc phân cấp tính toán các lợi thế tương đối ở cả cấp độ tập và giai đoạn. Ở cấp độ tập, lợi thế tương đối vĩ mô được tính toán dựa trên các nhóm quỹ đạo đã hoàn thành, trong khi ở cấp độ giai đoạn, lợi thế tương đối vi mô được ước tính bằng cách giới thiệu cơ chế nhóm trạng thái neo xác định các trạng thái môi trường lặp lại và xây dựng ngược các nhóm cấp độ giai đoạn. Các đánh giá trên các điểm chuẩn ALFWorld và WebShop sử dụng Qwen2.5-1.5B-Instruct và Qwen2.5-7B-Instruct chứng minh mức tăng hiệu suất hơn 12% trên ALFWorld và hơn 9% trên WebShop so với các đường cơ sở GRPO hiện có. Cách tiếp cận này duy trì cùng một chi phí bộ nhớ GPU và triển khai LLM, với ít hoặc không có chi phí thời gian bổ sung.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày GiGPO, một thuật toán RL hiệu quả mới giải quyết vấn đề khả năng mở rộng của quá trình đào tạo tác nhân LLM dài hạn.
Nó cho phép phân bổ tín dụng theo từng bước chi tiết, đồng thời vẫn duy trì được những lợi thế của RL theo nhóm hiện có.
Hiệu suất được cải thiện đã được kiểm chứng thực nghiệm so với các thuật toán hiện có trong các chuẩn mực ALFWorld và WebShop.
ĐạT được cải thiện hiệu suất mà không cần thêm bộ nhớ hoặc thời gian.
Limitations:
Hiệu suất của thuật toán đề xuất có thể bị giới hạn ở các LLM và chuẩn mực cụ thể.
Cần có một phân tích so sánh mở rộng hơn với các thuật toán RL khác.
Cần có thêm nghiên cứu về tính tổng quát của cơ chế nhóm trạng thái neo và khả năng áp dụng của nó vào nhiều môi trường khác nhau.
ĐáNh giá hiệu suất là cần thiết trong môi trường phức tạp hoặc trong khoảng thời gian dài hơn.
👍