Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Echo: Tách rời suy luận và đào tạo để căn chỉnh RL quy mô lớn trên các đàn không đồng nhất

Created by
  • Haebom

Tác giả

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

Phác thảo

Bài báo này nêu bật những hạn chế của các phương pháp hiện có thực hiện suy luận và tối ưu hóa chính sách trên cùng một cụm GPU trong quá trình huấn luyện hậu kỳ dựa trên học tăng cường của các mô hình ngôn ngữ quy mô lớn (LLM). Phương pháp này vi phạm giả định Chương trình đơn, Nhiều dữ liệu (SPMD) và do đó làm giảm hiệu quả. Do đó, chúng tôi đề xuất một hệ thống học tăng cường có tên là Echo, duy trì hiệu quả thống kê bằng cách tách suy luận và huấn luyện thành các nhóm "suy luận" và "huấn luyện" không đồng nhất. Echo giới thiệu hai giao thức đồng bộ hóa nhẹ: chế độ kéo tuần tự, cập nhật trọng số chính sách dựa trên các lệnh gọi API để giảm thiểu sai lệch, và chế độ đẩy-kéo không đồng bộ, truyền phát các bản triển khai được gắn thẻ phiên bản qua bộ đệm phát lại để tối đa hóa việc sử dụng phần cứng. Việc huấn luyện ba tác vụ học tăng cường tiêu biểu trên các cụm phân tán theo địa lý bằng Qwen3-4B, Qwen2.5-7B và Qwen3-32B cho thấy Echo đạt được tốc độ hội tụ và hiệu suất phần thưởng cuối cùng tương đương với đường cơ sở Verl được đặt cùng vị trí hoàn toàn, đồng thời chuyển các tác vụ suy luận sang phần cứng biên chung. Những kết quả này chứng minh rằng việc học tăng cường LLM quy mô lớn có thể đạt được hiệu suất ở cấp độ trung tâm dữ liệu bằng cách sử dụng các tài nguyên phân tán, không đồng nhất.

Takeaways, Limitations

Takeaways:
Trong việc học tăng cường cho các mô hình ngôn ngữ quy mô lớn, việc tách biệt suy luận và đào tạo mang lại tiềm năng tận dụng hiệu quả các nguồn lực phân bổ theo địa lý và không đồng nhất.
Chuyển giao nhiệm vụ suy luận sang phần cứng biên để giảm chi phí trong khi vẫn duy trì hiệu suất ở cấp độ trung tâm dữ liệu.
Chế độ kéo tuần tự và chế độ đẩy-kéo không đồng bộ cho phép bạn tối đa hóa việc sử dụng phần cứng trong khi vẫn duy trì hiệu quả thống kê.
Limitations:
Cần nghiên cứu thêm để tìm hiểu khả năng mở rộng của hệ thống Echo được đề xuất và khả năng tương thích của nó với nhiều LLM khác nhau.
Cần phải phân tích chi tiết về độ trễ truyền thông và xử lý lỗi có thể xảy ra trong môi trường phân tán về mặt địa lý.
Cần phải đánh giá hiệu suất bổ sung trong nhiều môi trường phần cứng khác nhau.
👍