본 논문은 Chain-of-Thought (CoT) 프롬프팅을 사용하는 대규모 언어 모델(LLM)의 추론 능력 향상에 대한 연구입니다. 기존 연구들이 주로 최종 과제 성능 향상에 초점을 맞춘 CoT 확장에 집중한 반면, 본 논문은 CoT에서 생성된 추론 과정의 정확성을 예측하는 가능성을 탐구합니다. 이를 위해 다양한 추론 과제를 포함하는 R2PE 벤치마크를 제시하여 LLM의 추론 단계를 바탕으로 최종 출력의 오류를 측정합니다. 여러 추론 과정의 정보를 활용하기 위해, Process Discernibility Score (PDS) 프레임워크를 제안하며, 이는 기존의 답변 검증 기준보다 훨씬 우수한 성능을 보입니다. R2PE의 45개 하위 집합에서 평균 F1 점수를 5.1% 향상시키고 AUC-PR을 2.97% 향상시켰으며, 개방형 질문응답(open-domain QA) 정확도 향상에도 효과적임을 보여줍니다.