본 논문에서는 대규모 언어 모델(LLM)의 환각 및 추론 오류 문제를 해결하기 위해, ReAct와 같은 반복적 추론 및 검색 방법을 확장한 새로운 프레임워크인 Reasoning Court (RC)를 제시합니다. RC는 여러 LLM 에이전트가 생성한 후보 답변과 그에 따른 추론 과정을 독립적으로 평가하는 LLM 판사를 활용합니다. 판사는 제시된 추론과 증거를 바탕으로 가장 사실적이고 논리적으로 일관된 답변을 선택하거나, 모든 후보 답변이 부적절하거나 오류가 있는 경우 사용 가능한 증거와 사전 훈련된 지식을 사용하여 새로운 답변을 생성합니다. HotpotQA, MuSiQue, FEVER와 같은 다단계 벤치마크 평가 결과, RC는 과제별 미세 조정 없이 최첨단 몇 번의 시도 프롬프팅 방법을 일관되게 능가하는 것으로 나타났습니다.