Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

Created by
  • Haebom
Category
Empty

저자

Benjamin Plaut, Nguyen X. Khanh, Tu Trinh

개요

본 논문은 15개의 대규모 언어 모델(LLM)을 분석하여, 채팅을 위해 미세 조정된 LLM의 최대 소프트맥스 확률(MSP)이 다지선다형 Q&A에서 일관되게 잘못 보정되어 있음을 밝혔습니다. 그러나 MSP는 여전히 유용한 불확실성 정보를 포함할 수 있습니다. 연구진은 잘못된 답변이 정답에 비해 더 작은 MSP와 관련이 있을 것이라는 가설을 세웠고, 이 가설이 기본 Q&A 작업에서 성능이 좋은 모델에 대해 성립함을 엄격한 통계적 검정을 통해 보였습니다. 또한 Q&A 정확도와 MSP 정확도 예측 간에는 강한 방향 상관관계가 있지만, Q&A 정확도와 보정 오류 간에는 상관관계가 없음을 발견했습니다. 이는 현재 미세 조정 패러다임 내에서 LLM의 기능이 향상됨에 따라 보정이 아닌 정확도 예측이 향상될 것임을 시사합니다. 마지막으로, MSP를 기반으로 선택적으로 응답을 보류하는 옵션을 제공하여 성능을 향상시킬 수 있음을 보여주며, 이를 위해서는 MSP 임계값을 선택하는 데 소량의 라벨링된 데이터만 필요함을 제시합니다.

시사점, 한계점

시사점:
LLM의 MSP는 다지선다형 Q&A에서 잘못 보정되어 있지만, 정답과 오답을 구분하는 데 유용한 정보를 제공할 수 있습니다.
LLM의 성능 향상은 MSP 보정 개선보다는 정확도 예측 개선과 더 관련이 있습니다.
MSP를 기반으로 응답을 선택적으로 보류함으로써 모델 성능을 향상시킬 수 있습니다. 소량의 라벨링된 데이터만 필요합니다.
한계점:
본 연구는 특정 유형의 Q&A 작업에만 초점을 맞추고 있습니다. 다른 유형의 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.
MSP를 이용한 응답 보류 전략의 효과는 사용된 데이터와 임계값 설정에 따라 달라질 수 있습니다.
15개의 LLM만 분석되었으므로, 더욱 광범위한 LLM에 대한 연구가 필요합니다.
👍