Cet article analyse 15 modèles linguistiques à grande échelle (MLH) et constate que la probabilité softmax maximale (PSM) des LMH optimisés pour le chat est systématiquement mal calibrée dans les questions-réponses à choix multiples. Cependant, les PSM peuvent néanmoins contenir des informations d'incertitude utiles. Nous émettons l'hypothèse que les réponses incorrectes seront associées à des PSM plus faibles que les réponses correctes, et des tests statistiques rigoureux démontrent que cette hypothèse est vraie pour les modèles performants dans la tâche de questions-réponses de base. Nous constatons également une forte corrélation directionnelle entre la précision des questions-réponses et les prédictions de précision des PSM, mais aucune corrélation entre la précision des questions-réponses et les erreurs de calibrage. Cela suggère que, dans le cadre du paradigme de calibrage actuel, l'amélioration des performances des LMH entraînera probablement une amélioration des prédictions de précision, et non du calibrage. Nous présentons également des résultats expérimentaux démontrant que le rejet sélectif des réponses en fonction de la PSM peut améliorer les performances.