PPO의 고정된 신뢰 영역으로 인한 탐색과 수렴의 상충 문제를 해결하기 위해, 탐색과 수렴 신호를 단일 경계 신뢰 영역에 통합하는 새로운 PPO-BR 알고리즘을 제시합니다. 엔트로피 기반 확장(epsilon up)과 보상 기반 수축(epsilon down)을 결합하여 불확실성이 높은 상태에서는 탐색을, 수렴이 안정적인 상태에서는 수렴을 우선시하는 적응형 강화 학습 방식입니다. MuJoCo, Atari, 희소 보상 환경 등 6가지 벤치마크에서 기존 PPO보다 29.1% 빠른 수렴 속도, 2.3배 낮은 보상 분산, 1.8% 미만의 실행 시간 오버헤드를 달성했습니다. 단 5줄의 코드 변경으로 구현 가능하며, 수술 로봇이나 자율 드론과 같은 안전 중요 시스템에 적용 가능한 이점을 제공합니다. 기존 GRPO와 달리 언어 모델과 일반 강화 학습 환경 모두에 적용 가능한 통합된 엔트로피-보상 메커니즘을 제공합니다.