본 논문은 로봇 공학에서의 의사결정을 위한 강력한 도구인 Monte Carlo Tree Search (MCTS)의 한계점을 해결하기 위해 Reward-Centered ReST-MCTS라는 새로운 프레임워크를 제시합니다. 기존 MCTS는 최종 단계 보상 평가에 의존하기 때문에 불확실성이 높고 노이즈가 많은 환경에서 효율성이 떨어지는 문제점을 가지고 있습니다. Reward-Centered ReST-MCTS는 중간 보상 형성을 통합하여 이러한 문제를 해결합니다. 규칙 기반 검증, 휴리스틱 안내 및 신경망 추정을 사용하여 부분 보상을 동적으로 할당하는 보상 중심(Rewarding Center)을 통해 검색 경로를 실시간으로 최적화하고 오류 전파의 영향을 완화합니다. 로봇 조작 작업에서의 실험 결과, 기존 방법들(Chain-of-Thought prompting, Vanilla ReST-MCTS)에 비해 2-4%의 정확도 향상을 보였으며, 다양한 수준의 불확실성에서도 높은 성능을 유지함을 확인했습니다.