Este artículo analiza 15 modelos de lenguaje a gran escala (LLM) y descubre que la probabilidad softmax máxima (MSP) de los LLM ajustados para chat se descalibra sistemáticamente en preguntas y respuestas de opción múltiple. Sin embargo, los MSP aún pueden contener información útil sobre la incertidumbre. Planteamos la hipótesis de que las respuestas incorrectas se asociarán con MSP menores que las respuestas correctas, y rigurosas pruebas estadísticas demuestran que esta hipótesis es válida para los modelos que funcionan bien en la tarea básica de preguntas y respuestas. También encontramos una fuerte correlación direccional entre la precisión de las preguntas y respuestas y las predicciones de precisión de los MSP, pero ninguna correlación entre la precisión de las preguntas y respuestas y los errores de calibración. Esto sugiere que, dentro del paradigma actual de ajuste fino, mejorar el rendimiento de los LLM probablemente resultará en mejores predicciones de precisión, no en calibración. También presentamos resultados experimentales que demuestran que rechazar selectivamente las respuestas basadas en MSP puede mejorar el rendimiento.