본 논문은 대규모 언어 모델(LLM)의 신뢰성 및 오류 감지가 고위험 다단계 추론 작업에 배포하는 데 중요하다는 점을 강조한다. 기존 연구는 LLM 응답의 오류 가능성을 추정하는 신뢰도 평가자를 사용하여 자체 평가 LLM-scorer 시스템의 신뢰도 추정을 탐구했다. 그러나 대부분의 방법은 단일 단계 출력에 초점을 맞추고 다단계 추론의 어려움을 간과했다. 본 연구에서는 자체 평가 기술을 다단계 작업으로 확장하여 전체 점수 매기기와 단계별 점수 매기기, 두 가지 직관적인 접근 방식을 테스트했다. 두 개의 다단계 벤치마크 데이터 세트를 사용하여 단계별 평가는 잠재적 오류를 감지하는 데 있어서 전체 점수 매기기보다 일반적으로 우수하며, AUC-ROC에서 최대 15% 상대적 증가를 보였다. 본 연구 결과는 자체 평가 LLM 시스템이 복잡한 추론에서 의미 있는 신뢰도 추정을 제공하여 신뢰성을 높이고 오류 감지를 위한 실용적인 프레임워크를 제공한다는 것을 보여준다.