Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs

Created by
  • Haebom

저자

Chenjun Xu, Bingbing Wen, Bin Han, Robert Wolfe, Lucy Lu Wang, Bill Howe

개요

본 논문은 대규모 언어 모델(LLM)의 과신/과소신 경향을 인간과 비교 분석하고, 과신 문제를 해결하기 위한 새로운 방법론인 Answer-Free Confidence Estimation (AFCE)을 제시합니다. Llama-3-70B-instruct, Claude-3-Sonnet, GPT-4o 세 가지 LLM을 다양한 난이도의 질의응답 과제에 적용하여 실험을 진행하였습니다. 그 결과, LLM은 인간과 달리 과제 난이도에 대한 민감도가 낮고, 페르소나(전문가/일반인, 인종, 성별, 연령 등)에 따라 편향된 자신감 추정을 보이는 것을 확인했습니다. AFCE는 질문에 대한 자신감 점수를 먼저 얻고, 그 후 답변을 따로 요청하는 두 단계의 프롬프트 방식을 사용하여 과신을 줄이고 인간과 유사한 난이도 민감도를 제공합니다. MMLU와 GPQA 데이터셋을 사용한 실험 결과, AFCE가 과신을 크게 감소시키고 더 인간적인 난이도 민감도를 제공함을 보여줍니다.

시사점, 한계점

시사점:
LLM의 과신/과소신 패턴이 인간과 다르다는 것을 밝힘.
LLM의 자신감 추정이 페르소나에 따라 편향될 수 있음을 보임.
AFCE가 LLM의 자신감 교정 및 해석성 향상에 효과적임을 제시.
LLM의 신뢰도 향상 및 설명가능성 연구에 기여.
한계점:
AFCE의 효과가 모든 LLM과 모든 유형의 과제에 일반화될 수 있는지 추가 연구 필요.
다양한 페르소나와 맥락에서의 편향을 완전히 해결했는지에 대한 추가적인 검증 필요.
AFCE의 계산 비용 및 효율성에 대한 분석 필요.
👍