본 논문은 신경망(NNs)의 예측 정확도가 높더라도 잘못된 예측에 대해 과신하는 경향(잘못된 보정)이 존재하며, 이는 신뢰할 수 있는 불확실성 추정이 중요한 응용 분야에서 심각한 문제를 야기한다는 점을 다룹니다. 세 가지 시각적 벤치마크를 사용하여 인간의 의견 불일치와 크라우드소싱된 신뢰도를 모두 포함한 데이터를 분석하여 모델이 예측한 불확실성과 인간이 인지하는 불확실성 간의 상관관계를 평가했습니다. 그 결과, 현재 방법들은 인간의 직관과 약하게만 일치하며, 작업과 불확실성 측정 방법에 따라 상관관계가 크게 달라진다는 것을 발견했습니다. 특히, 인간이 제공한 소프트 라벨을 훈련 과정에 통합하면 정확도를 저해하지 않고 보정을 개선할 수 있다는 점을 밝혔습니다. 이러한 결과는 모델과 인간의 불확실성 간의 지속적인 차이를 보여주며, 더욱 신뢰할 수 있는 AI 시스템 개발을 위한 인간의 통찰력 활용 가능성을 강조합니다.