Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models

Created by
  • Haebom
Category
Empty

저자

Nariman Naderi, Seyed Amir Ahmad Safavi-Naini, Thomas Savage, Zahra Atf, Peter Lewis, Girish Nadkarni, Ali Soroush

개요

본 연구는 GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, Qwen 등 여러 대규모 언어 모델(LLM)을 대상으로, 300개의 소화기내과 보드 시험 스타일 질문을 사용하여 자가 보고된 응답 확실성을 평가했습니다. GPT-o1 preview, GPT-4o, Claude-3.5-Sonnet 등 최고 성능 모델은 0.15-0.2의 Brier score와 0.6의 AUROC를 달성했습니다. 최신 모델이 성능 향상을 보였지만, 모든 모델에서 과신의 경향이 일관되게 나타났습니다. 의료 분야에서 LLM의 안전한 사용을 위해서는 불확실성 추정이 중요한 과제임을 시사합니다.

시사점, 한계점

시사점: 최신 LLM이 의료 질문에 대한 응답 정확도를 향상시켰지만, 여전히 과신의 문제를 안고 있음을 보여줍니다. 의료 분야에서 LLM 활용 시, 불확실성 추정 및 관리의 중요성을 강조합니다.
한계점: 자가 보고된 응답 확실성에만 의존하여 평가되었으므로, 실제 성능과의 차이가 존재할 수 있습니다. 평가에 사용된 질문이 소화기내과 분야에 국한되어, 다른 분야로의 일반화 가능성에 제한이 있습니다. 모델의 불확실성 추정 능력에 대한 정량적 분석이 부족합니다.
👍