본 논문은 복잡한 다단계 작업을 수행하는 에이전트로서의 대규모 언어 모델(LLM)의 어려움을 해결하기 위해, 강화 학습을 통해 추론 과정을 보정하는 기존 접근 방식의 한계를 극복하는 새로운 방법을 제시합니다. 기존의 Process Reward Models (PRMs)는 많은 후속 행동 후보를 가진 경우 훈련 데이터 획득에 많은 계산 비용이 소요되는 문제점이 있습니다. 본 논문에서는 연속적인 추론 단계에서의 상대적 보상 추세에 집중하여, Reward Rising Optimization (RRO)라는 새로운 방법을 제안합니다. RRO는 이전 반복에 비해 양의 보상 차이(보상 증가)를 보이는 단계를 식별할 때까지 점진적으로 프로세스 감독을 강화하며, 이를 통해 다음 행동 후보에 대한 탐색 공간을 동적으로 확장하고 고품질 데이터를 효율적으로 캡처합니다. WebShop 및 InterCode-SQL 벤치마크에서의 실험 결과를 통해 RRO가 훨씬 적은 탐색 비용으로 우수한 성능을 달성함을 보여줍니다.