Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine

Created by
  • Haebom

저자

Maxime Griot, Jean Vanderdonckt, Demet Yuksel, Coralie Hemptinne

개요

본 논문은 ChatGPT와 같은 대규모 언어 모델(LLM)의 의료 분야 적용 가능성을 평가하기 위해, 허구의 장기인 'Glianorex'를 중심으로 한 가상 의학 벤치마크를 개발했습니다. 영문과 불문으로 교과서와 객관식 문제를 생성하여 다양한 LLM(독점, 오픈소스, 의료 전문 모델)을 제로샷 설정에서 평가했습니다. 그 결과, LLM은 평균 64%의 정답률을 보인 반면, 의사는 27%에 그쳤습니다. 영어에서는 미세 조정된 의료 모델이 기본 모델보다 성능이 우수했지만, 불어에서는 그렇지 않았습니다. 분석 결과, 모델들은 얕은 단서, 시험 전략, 그리고 환각적인 추론에 의존하여 정답을 찾는 경향을 보였습니다. 이는 기존의 객관식 시험 기반 평가가 임상 추론 능력을 효과적으로 측정하지 못할 수 있음을 시사하며, LLM에 대한 더욱 강력하고 임상적으로 의미 있는 평가 방법의 필요성을 강조합니다.

시사점, 한계점

시사점:
기존의 객관식 시험 기반 평가는 LLM의 진정한 임상 이해 능력을 과대평가할 수 있음을 보여줌.
LLM이 패턴 인식과 시험 전략에 의존하여 높은 점수를 얻을 수 있음을 밝힘.
LLM의 임상 추론 능력 평가를 위한 더욱 강력하고 의미있는 평가 방법 개발의 필요성 제기.
언어 모델의 성능이 언어에 따라 다르게 나타날 수 있음을 보임.
한계점:
가상의 장기를 사용한 가상 벤치마크의 일반화 가능성에 대한 검토 필요.
다양한 유형의 임상 추론 능력을 충분히 반영하지 못할 가능성 존재.
평가에 사용된 모델의 종류와 버전에 따른 한계 존재.
👍