AI 에이전트의 핵심 능력인 정보 탐색은 긴 여정에 걸쳐 도구로 생성된 정보를 수집하고 추론해야 하지만, 언어 모델 기반 에이전트에게 여전히 어렵다. 기존의 process reward model (PRM)은 테스트 시 후보 단계를 순위 매기는 방식으로 에이전트를 안내하지만, 짧은 추론과 이진 판단에 맞춰 설계되어 도구 상호 작용, 도구 출력에 대한 추론과 같은 정보 탐색 단계의 더 풍부한 차원을 포착하거나, 긴 호라이즌 작업에서 빠르게 증가하는 컨텍스트를 처리하지 못한다. 이러한 한계를 해결하기 위해, PRInTS를 제안한다. PRInTS는 (1) 여러 단계 품질 차원(예: 도구 출력 해석, 도구 호출 정보)에 걸쳐 PRM의 추론을 기반으로 한 밀집 점수 매기기와 (2) 단계 평가를 위해 필수 정보를 보존하면서 증가하는 컨텍스트를 압축하는 궤적 요약을 통해 훈련된 생성적 PRM이다. FRAMES, GAIA (레벨 1-3), WebWalkerQA (쉬움-어려움) 벤치마크에 대한 광범위한 평가를 통해, PRInTS를 사용한 best-of-n 샘플링이 오픈 소스 모델과 전문 에이전트의 정보 탐색 능력을 향상시키고, 더 작은 백본 에이전트로 최첨단 모델의 성능에 필적하거나 능가하며, 다른 강력한 보상 모델링 기준선을 능가함을 밝혀냈다.