Gradient Boosting Reinforcement Learning (GBRL) là một khuôn khổ áp dụng các điểm mạnh của cây tăng cường gradient (GBT) vào các tác vụ học tăng cường (RL). Trong khi mạng nơ-ron (NN) đã trở thành tiêu chuẩn thực tế trong RL, chúng gặp khó khăn với các đặc điểm phân loại có cấu trúc và hiệu suất tổng quát kém đối với các mẫu không phân phối. GBT đã cho thấy hiệu suất tuyệt vời về các vấn đề này trong học có giám sát. Tuy nhiên, ứng dụng của GBT trong RL còn hạn chế. Các thư viện GBT hiện có được tối ưu hóa cho các tập dữ liệu tĩnh có nhãn cố định, không tương thích với bản chất động của RL, trong đó phân phối trạng thái và tín hiệu phần thưởng thay đổi trong quá trình đào tạo. GBRL khắc phục những hạn chế này bằng cách liên tục kết hợp các cấu hình cây và tương tác môi trường. Các thí nghiệm mở rộng cho thấy GBRL hoạt động tốt hơn NN trong các miền có quan sát có cấu trúc và các đặc điểm phân loại, đồng thời duy trì hiệu suất cạnh tranh trên các chuẩn mực kiểm soát liên tục tiêu chuẩn. Tương tự như học có giám sát, GBRL cho thấy độ mạnh mẽ tốt đối với các mẫu không phân phối và khả năng xử lý các mối quan hệ trạng thái-hành động không đều.