Gradient Boosting Reinforcement Learning (GBRL)은 기울기 부스팅 트리(GBT)의 장점을 강화 학습(RL) 과제에 적용하는 프레임워크입니다. 신경망(NN)이 RL에서 사실상 표준이 되었지만, 구조화된 범주형 특징에 어려움을 겪고 분포 외 샘플에 대한 일반화 성능이 떨어지는 단점이 있습니다. GBT는 지도 학습에서 이러한 문제에 대해 우수한 성능을 보여왔습니다. 하지만 RL에서 GBT의 적용은 제한적이었습니다. 기존 GBT 라이브러리는 고정된 레이블을 가진 정적 데이터셋에 최적화되어 있어, 상태 분포와 보상 신호가 훈련 중에 변화하는 RL의 동적 특성과 호환되지 않습니다. GBRL은 트리 구성과 환경 상호 작용을 지속적으로 혼합하여 이러한 한계를 극복합니다. 광범위한 실험을 통해 GBRL이 구조화된 관측치와 범주형 특징을 가진 영역에서 NN보다 우수한 성능을 보이며, 표준 연속 제어 벤치마크에서는 경쟁력 있는 성능을 유지함을 보여줍니다. 지도 학습과 마찬가지로 GBRL은 분포 외 샘플에 대한 우수한 강건성과 불규칙적인 상태-행동 관계 처리 능력을 보여줍니다.