Bài báo này phân tích 15 mô hình ngôn ngữ quy mô lớn (LLM) và nhận thấy rằng xác suất softmax tối đa (MSP) của LLM được tinh chỉnh cho trò chuyện luôn bị hiệu chuẩn sai trong phần Hỏi & Đáp trắc nghiệm. Tuy nhiên, MSP vẫn có thể chứa thông tin không chắc chắn hữu ích. Chúng tôi đưa ra giả thuyết rằng các câu trả lời không chính xác sẽ liên quan đến MSP nhỏ hơn so với câu trả lời đúng và kiểm tra thống kê nghiêm ngặt chứng minh rằng giả thuyết này đúng đối với các mô hình hoạt động tốt trong nhiệm vụ Hỏi & Đáp cơ bản. Chúng tôi cũng tìm thấy mối tương quan định hướng mạnh mẽ giữa độ chính xác của Q&A và dự đoán độ chính xác của MSP, nhưng không có mối tương quan giữa độ chính xác của Q&A và lỗi hiệu chuẩn. Điều này cho thấy rằng trong mô hình tinh chỉnh hiện tại, việc cải thiện hiệu suất LLM có thể sẽ dẫn đến dự đoán độ chính xác được cải thiện, chứ không phải hiệu chuẩn. Chúng tôi cũng trình bày các kết quả thử nghiệm chứng minh rằng việc loại bỏ có chọn lọc các phản hồi dựa trên MSP có thể cải thiện hiệu suất.