대규모 언어 모델(LLM)은 수치 추정에는 뛰어나지만, 불확실성을 정확하게 정량화하는 데 어려움을 겪습니다. 본 연구에서는 LLM이 자체 답변 주변에 신뢰 구간을 얼마나 잘 구축하는지 조사하고, LLM이 체계적으로 과신한다는 것을 발견했습니다. 이러한 동작을 평가하기 위해, 신뢰 구간 범위 및 선명도에 대한 엄격한 채점 규칙을 갖춘 Fermi 스타일 추정 질문의 벤치마크인 FermiEval을 도입했습니다. 여러 최신 모델에서, 공칭 99% 구간은 평균적으로 65%의 시간 동안 실제 정답을 포함합니다. 구간을 조정하는 컨포멀 예측 기반 접근 방식을 사용하면, 정확한 99% 관측 범위를 얻을 수 있으며, 윙클러 구간 점수가 54% 감소합니다. 또한, 직접 로그-확률 추출 및 분위수 조정 방법을 제안하여 높은 신뢰 수준에서 과신을 더욱 줄입니다. 마지막으로, LLM이 과신을 보이는 이유를 설명하는 지각 터널 이론을 개발했습니다. 이는 LLM이 불확실성 하에서 추론할 때, 추론된 분포의 꼬리를 무시하고, 잘린 영역에서 샘플링하는 것처럼 행동하기 때문입니다.