Sign In

LLMs are Overconfident: Evaluating Confidence Interval Calibration with FermiEval

Created by
  • Haebom
Category
Empty

저자

Elliot L. Epstein, John Winnicki, Thanawat Sornwanee, Rajat Dwaraknath

개요

대규모 언어 모델(LLM)은 수치 추정에는 뛰어나지만, 불확실성을 정확하게 정량화하는 데 어려움을 겪습니다. 본 연구에서는 LLM이 자체 답변 주변에 신뢰 구간을 얼마나 잘 구축하는지 조사하고, LLM이 체계적으로 과신한다는 것을 발견했습니다. 이러한 동작을 평가하기 위해, 신뢰 구간 범위 및 선명도에 대한 엄격한 채점 규칙을 갖춘 Fermi 스타일 추정 질문의 벤치마크인 FermiEval을 도입했습니다. 여러 최신 모델에서, 공칭 99% 구간은 평균적으로 65%의 시간 동안 실제 정답을 포함합니다. 구간을 조정하는 컨포멀 예측 기반 접근 방식을 사용하면, 정확한 99% 관측 범위를 얻을 수 있으며, 윙클러 구간 점수가 54% 감소합니다. 또한, 직접 로그-확률 추출 및 분위수 조정 방법을 제안하여 높은 신뢰 수준에서 과신을 더욱 줄입니다. 마지막으로, LLM이 과신을 보이는 이유를 설명하는 지각 터널 이론을 개발했습니다. 이는 LLM이 불확실성 하에서 추론할 때, 추론된 분포의 꼬리를 무시하고, 잘린 영역에서 샘플링하는 것처럼 행동하기 때문입니다.

시사점, 한계점

시사점:
LLM의 불확실성 추정에 대한 문제점을 제시하고, 과신 경향을 보임을 밝힘.
FermiEval 벤치마크를 통해 신뢰 구간 성능을 평가하는 방법론을 제시.
컨포멀 예측, 직접 로그-확률 추출, 분위수 조정과 같은 과신 완화 기법 제안.
LLM의 과신 현상을 설명하는 '지각 터널 이론' 제시.
한계점:
구체적인 모델 이름, 벤치마크 세부 정보, 과신 완화 기법의 구현 방식 및 성능에 대한 상세한 정보 부족.
제안된 방법론의 일반화 가능성 및 다른 LLM에 대한 적용 결과에 대한 정보 부족.
지각 터널 이론의 추가적인 검증 및 구체적인 설명 필요.
👍