대규모 언어 모델(LLM)의 추론 기술 발전에도 불구하고, 반복적 추론이 진실 탐구 행동을 향상시키기보다는 신념 고착 및 확증 편향을 유발할 수 있다는 점을 지적합니다. 본 연구는 베이즈 통계의 마팅게일 속성을 활용하여 LLM 추론에서 신념 고착을 체계적으로 평가하는 프레임워크를 제안합니다. 이 프레임워크는 마팅게일 점수를 사용하여 베이즈적 업데이트 능력의 편차를 측정하고, 이벤트 예측, 가치 판단 질문, 학술 논문 검토 등 다양한 문제 영역에서 신념 고착 현상이 광범위하게 나타남을 확인합니다. 또한, 제안된 마팅게일 점수가 정답 레이블이 있는 문제 영역에서 진실 탐구 능력의 대리 변수로 유용함을 입증합니다.