Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark

작성자

Haebom

카테고리

Empty

저자

Zheqing Li, Yiying Yang, Jiping Lang, Wenhao Jiang, Junrong Chen, Yuhang Zhao, Shuang Li, Dingqian Wang, Zhu Lin, Xuanna Li, Yuze Tang, Jiexian Qiu, Xiaolin Lu, Hongji Yu, Shuang Chen, Yuhua Bi, Xiaofei Zeng, Yixian Chen, Lin Yao

💡 개요

기존 LLM 평가 방식은 실제 임상 환경에서의 GPs(일반 진료의) 역할 수행 능력을 충분히 반영하지 못한다는 문제를 제기합니다. 이에 본 연구는 GPs의 임상 역량을 기반으로 한 새로운 평가 프레임워크와 데이터셋(GPBench)을 제안합니다. 이를 통해 10개의 최신 LLM을 평가한 결과, 현재 LLM은 GPs의 업무를 자율적으로 수행하기에 부적합하며 인간의 지속적인 감독과 GPs의 일상 업무에 특화된 최적화가 필요함을 밝혔습니다.

🔑 시사점 및 한계

•

LLM의 임상 역량 평가에 있어 실질적인 GPs의 업무 맥락을 반영하는 중요성을 강조합니다.

•

GPs 업무에 맞춰 전문가들이 세심하게 구축한 GPBench 데이터셋은 LLM의 임상 적용 가능성을 체계적으로 평가하는 데 기여할 수 있습니다.

•

현재 LLM은 GPs의 임상 업무를 완전히 대체할 수 없으며, 자율적인 임상 적용을 위해서는 추가적인 연구와 인간의 감독이 필수적입니다.

PDF 보기

Made with Slashpage