Large language models management of medications: three performance analyses
Created by
Haebom
저자
Kelli Henry, Steven Xu, Kaitlin Blotske, Moriah Cargile, Erin F. Barreto, Brian Murray, Susan Smith, Seth R. Bauer, Xingmeng Zhao, Adeleine Tilley, Yanjun Gao, Tianming Liu, Sunghwan Sohn, Andrea Sikora
개요
GPT-4o의 약물 관리 능력을 평가한 연구로, 약물 제형 식별, 약물 상호 작용 식별, 약물 처방 생성의 세 가지 과제를 수행하게 했다. 실험 결과, GPT-4o는 약물 제형 매칭에서 49% 정확도, 약물 상호 작용 식별에서 54.7% 정확도, 약물 처방 생성에서 65.8%의 정확도를 보이며, 전반적으로 낮은 성능을 보였다.
시사점, 한계점
•
시사점:
◦
GPT-4o는 기본적인 약물 관리 작업에서 일관적으로 낮은 성능을 보였다.
◦
임상의가 주석한 데이터 세트를 통한 도메인별 훈련 및 포괄적인 평가 프레임워크의 필요성을 강조한다.
•
한계점:
◦
단순한 약물 관리 작업에 대한 평가에 국한되었다.
◦
GPT-4o의 응답을 평가하기 위해 임상의 평가와 LLM 지표(TF-IDF, 정규화된 레벤슈타인 유사도, ROUGE 1/ROUGE L F1)를 사용했다.