ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks
Created by
Haebom
저자
Yinghao Zhu, Junyi Gao, Zixiang Wang, Weibin Liao, Xiaochen Zheng, Lifang Liang, Miguel O. Bernabeu, Yasha Wang, Lequan Yu, Chengwei Pan, Ewen M. Harrison, Liantao Ma
개요
본 연구는 9개의 GPT 기반 LLM, 5개의 BERT 기반 모델, 그리고 7개의 기존 방법들을 비정형 임상 노트와 정형 전자 건강 기록(EHR) 데이터를 사용하여 비생성 임상 예측 성능을 벤치마킹한 ClinicRealm 연구입니다. 연구 결과, 제로샷 설정에서 최신 LLM(예: DeepSeek R1/V3, GPT o3-mini-high)이 미세 조정된 BERT 모델을 능가하는 비정형 임상 노트 예측 성능을 보였습니다. 정형 EHR 데이터에서는 충분한 데이터가 있을 때 전문화된 모델이 우수하지만, 고급 LLM(예: GPT-4o, DeepSeek R1/V3)은 데이터가 부족한 환경에서도 강력한 제로샷 성능을 보이며 종종 기존 모델을 능가했습니다. 특히, 주요 오픈소스 LLM이 독점 모델과 동등하거나 능가하는 성능을 보였습니다. 이는 최신 LLM이 특히 비정형 텍스트에서 그리고 데이터 효율적인 정형 데이터 옵션을 제공하는 강력한 비생성 임상 예측 도구임을 보여줍니다. 따라서 모델 선택 전략의 재평가가 필요합니다.
시사점, 한계점
•
시사점:
◦
최신 LLM, 특히 오픈소스 LLM이 비정형 임상 노트 및 데이터 부족 환경의 정형 EHR 데이터 예측에서 기존 모델을 능가하는 성능을 보임.
◦
LLM을 이용한 비생성 임상 예측의 가능성을 제시하며, 기존의 모델 선택 전략 재고 필요성을 강조.
◦
의료 정보학자, AI 개발자, 임상 연구자들에게 LLM 활용에 대한 새로운 접근 방식을 제시.