Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators
Created by
Haebom
Category
Empty
저자
Nicholas Wan, Qiao Jin, Joey Chan, Guangzhi Xiong, Serina Applebaum, Aidan Gilson, Reid McMurry, R. Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu
개요
본 논문은 9개의 대규모 언어 모델(LLM)을 대상으로 의료 계산기 선택과 같은 임상 의사결정 지원 능력을 평가한 연구이다. 35개의 임상 계산기에 대한 1,009개의 객관식 문제-답변 쌍을 사용하여 평가를 진행했으며, 일부 질문에 대해서는 사람과 LLM의 성능을 비교했다. OpenAI o1이 66.0%의 정확도를 보이며 가장 높은 성능을 보였지만, 두 명의 인간 평가자는 평균 79.5%의 정확도로 LLM을 능가했다. 의료 계산기 추천 능력 평가 결과, LLM은 인간보다 우수하지 않음을 확인했으며, 오류 분석 결과 LLM의 오류는 이해 부족(49.3%)과 계산기 지식 부족(7.1%)에서 주로 발생하는 것으로 나타났다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델이 의료 계산기 선택과 같은 임상 의사 결정 지원에 있어 인간 전문가를 능가하지 못함을 보여줌.
◦
LLM의 오류 원인을 이해 부족과 계산기 지식 부족으로 구체적으로 분석하여 향후 모델 개선 방향 제시.
◦
의료 분야에서 LLM 활용의 현실적인 한계를 제시하고, 신중한 접근 필요성을 강조.
•
한계점:
◦
평가에 사용된 질문 수와 계산기 종류의 제한으로 일반화에 어려움.
◦
인간 평가자 수가 적어 평가자 간 일관성에 대한 우려.
◦
특정 LLM과 의료 분야에 국한된 연구 결과로 다른 LLM이나 의료 영역으로의 일반화에 주의 필요.