본 논문은 대규모 언어 모델(LLM)의 능력 평가에 널리 사용되는 다지선다형 문제(MCQ) 평가 방식의 한계를 지적하고, 새로운 평가 프레임워크인 'Revealed Belief'를 제시합니다. Revealed Belief는 LLM의 텍스트 완성 확률 분포를 분석하여 불확실성 하에서의 추론 능력을 평가합니다. 기존 MCQ 평가 방식은 LLM이 정답을 제시하는지 여부에만 초점을 맞추지만, Revealed Belief는 LLM이 확률을 일관되게 할당하고, 새로운 증거에 따라 믿음을 적절하게 갱신하는지 여부까지 평가합니다.