本論文は、ニューラルネットワーク(NN)の予測精度が高い場合でも、誤った予測に対して過信する傾向(誤った補正)が存在し、これは、信頼できる不確実性推定が重要なアプリケーションで深刻な問題を引き起こすことを扱います。 3つの視覚的ベンチマークを使用して、人間の意見の不一致とクラウドソーシングされた信頼性の両方を含むデータを分析し、モデルが予測した不確実性と人間が認識する不確実性との間の相関関係を評価しました。その結果、現在の方法は人間の直観と弱くのみ一致し、作業と不確実性の測定方法によって相関関係が大きく異なることを発見しました。特に、人間が提供したソフトラベルをトレーニングプロセスに組み込むことで、精度を損なうことなく補正を改善できることを明らかにしました。これらの結果は、モデルと人間の不確実性の間の持続的な違いを示しており、より信頼性の高いAIシステム開発のための人間の洞察力の利用可能性を強調しています。