Bài báo này thảo luận về những tiến bộ gần đây trong Tối ưu hóa Chính sách Thưởng Có Hướng dẫn (GRPO), giúp cải thiện sự liên kết sở thích của con người trong các mô hình tạo hình ảnh và video. GRPO hiện tại gặp phải vấn đề về chi phí tính toán cao do triển khai theo chính sách và các bước lấy mẫu Phương trình Vi phân Ngẫu nhiên (SDE) quá mức, cũng như sự bất ổn định trong quá trình huấn luyện do phần thưởng thưa thớt gây ra. Để giải quyết những vấn đề này, chúng tôi đề xuất BranchGRPO, một phương pháp mới áp dụng chính sách lấy mẫu phân nhánh để cập nhật quy trình lấy mẫu SDE. Bằng cách chia sẻ tính toán trên các tiền tố chung và cắt tỉa các đường dẫn có phần thưởng thấp và độ sâu dư thừa, BranchGRPO giảm đáng kể chi phí tính toán cho mỗi lần cập nhật trong khi vẫn duy trì hoặc cải thiện tính đa dạng của quá trình khám phá. Những đóng góp chính bao gồm giảm chi phí triển khai và đào tạo thông qua các kỹ thuật lấy mẫu phân nhánh, một bộ ước tính lợi ích dựa trên cây kết hợp các phần thưởng dày đặc ở cấp quy trình, và cải thiện sự hội tụ và hiệu suất thông qua các chiến lược cắt tỉa tận dụng sự dư thừa đường dẫn và độ sâu. Kết quả thử nghiệm chứng minh rằng BranchGRPO cải thiện điểm liên kết 16% và giảm thời gian huấn luyện 50% so với một mô hình cơ sở mạnh mẽ.