Bài báo này đề xuất thuật toán Tối ưu hóa Chính sách Nhóm trong Nhóm (GiGPO), một thuật toán mới giải quyết các thách thức về khả năng mở rộng của việc đào tạo tác nhân mô hình ngôn ngữ (LLM) quy mô lớn, dài hạn bằng cách sử dụng học tăng cường dựa trên nhóm (RL). Trong khi vẫn duy trì các ưu điểm của RL dựa trên nhóm hiện có (không cần người đánh giá, chiếm ít bộ nhớ và hội tụ ổn định), thuật toán này đạt được sự phân bổ tín dụng ở cấp độ giai đoạn chi tiết thông qua cấu trúc phân cấp tính toán các lợi thế tương đối ở cả cấp độ tập và giai đoạn. Ở cấp độ tập, lợi thế tương đối vĩ mô được tính toán dựa trên các nhóm quỹ đạo đã hoàn thành, trong khi ở cấp độ giai đoạn, lợi thế tương đối vi mô được ước tính bằng cách giới thiệu cơ chế nhóm trạng thái neo xác định các trạng thái môi trường lặp lại và xây dựng ngược các nhóm cấp độ giai đoạn. Các đánh giá trên các điểm chuẩn ALFWorld và WebShop sử dụng Qwen2.5-1.5B-Instruct và Qwen2.5-7B-Instruct chứng minh mức tăng hiệu suất hơn 12% trên ALFWorld và hơn 9% trên WebShop so với các đường cơ sở GRPO hiện có. Cách tiếp cận này duy trì cùng một chi phí bộ nhớ GPU và triển khai LLM, với ít hoặc không có chi phí thời gian bổ sung.