RPM-MCTS는 대규모 언어 모델의 코드 생성 능력을 향상시키기 위해 지식 검색 기반 프로세스 보상 모델을 활용하는 효과적인 방법입니다. 중간 알고리즘 단계를 평가하기 위한 복잡한 모델 훈련을 피하기 위해 지식 기반 검색을 사용하며, 몬테카를로 트리 탐색(MCTS)을 기반으로 합니다. 확장 단계에서 중복 노드를 제거하기 위해 유사성 필터링을 사용하여 추론 경로의 다양성을 확보합니다. 샌드박스 실행 피드백을 활용하여 생성 과정에서 오류가 있는 알고리즘 단계를 찾아내어 시기적절하고 표적화된 수정을 가능하게 합니다.