본 논문은 15개의 대규모 언어 모델(LLM)을 분석하여, 채팅을 위해 미세 조정된 LLM의 최대 소프트맥스 확률(MSP)이 다지선다형 Q&A에서 일관되게 잘못 보정되어 있음을 밝혔습니다. 그러나 MSP는 여전히 유용한 불확실성 정보를 포함할 수 있습니다. 연구진은 잘못된 답변이 정답에 비해 더 작은 MSP와 관련이 있을 것이라는 가설을 세웠고, 이 가설이 기본 Q&A 작업에서 성능이 좋은 모델에 대해 성립함을 엄격한 통계적 검정을 통해 보였습니다. 또한 Q&A 정확도와 MSP 정확도 예측 간에는 강한 방향 상관관계가 있지만, Q&A 정확도와 보정 오류 간에는 상관관계가 없음을 발견했습니다. 이는 현재 미세 조정 패러다임 내에서 LLM의 기능이 향상됨에 따라 보정이 아닌 정확도 예측이 향상될 것임을 시사합니다. 마지막으로, MSP를 기반으로 선택적으로 응답을 보류하는 옵션을 제공하여 성능을 향상시킬 수 있음을 보여주며, 이를 위해서는 MSP 임계값을 선택하는 데 소량의 라벨링된 데이터만 필요함을 제시합니다.