본 논문은 대규모 언어 모델(LLM)의 안전하고 신뢰할 수 있는 배포를 위해 불확실성 추정의 중요성을 강조하며, 80개의 다양한 LLM(오픈/클로즈 소스, 밀집/MoE 아키텍처, 추론/비추론 모드, 양자화 변형, 0.6B~671B 파라미터)을 대상으로 한 포괄적인 연구 결과를 제시합니다. 토큰 확률 기반 불확실성(TPU), 수치적 언어 불확실성(NVU), 언어적 언어 불확실성(LVU) 세 가지 블랙박스 단일 패스 방법에 초점을 맞춰, 추론 집약적 및 지식 기반 작업을 모두 포함하는 MMLU-Pro 벤치마크를 사용하여 불확실성 보정 및 선택적 분류를 평가했습니다. 그 결과 LVU가 TPU 및 NVU보다 일관되게 우수한 보정 및 판별력을 제공하며 해석력도 높다는 것을 보여줍니다. 또한 높은 정확도가 신뢰할 수 있는 불확실성을 의미하지 않으며, 모델 규모, 사후 훈련, 추론 능력 및 양자화가 모두 추정 성능에 영향을 미친다는 것을 발견했습니다. 특히 LLM은 지식 집약적인 작업보다 추론 작업에서 더 나은 불확실성 추정을 보이며, 좋은 보정이 반드시 효과적인 오류 순위 지정으로 이어지는 것은 아닙니다. 이러한 결과는 다각적인 평가의 필요성을 강조하며, LVU를 실제 환경에서 LLM의 신뢰성을 향상시키는 실용적인 도구로 제시합니다.