Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation

Created by

Haebom

저자

Ting Fang Tan, Kabilan Elangovan, Andreas Pollreisz, Kevin Bryan Dy, Wei Yan Ng, Joy Le Yi Wong, Jin Liyuan, Chrystie Quek Wan Ning, Ashley Shuen Ying Hong, Arun James Thirunavukarasu, Shelley Yin-His Chang, Jie Yao, Dylan Hong, Wang Zhaoran, Amrita Gupta, Daniel SW Ting

💡 개요

본 연구는 안과 환자 질문에 대한 4가지 소형 의료 LLM (Meerkat-7B, BioMistral-7B, OpenBioLLM-8B, MedLLaMA3-v20)의 성능을 평가하고, LLM 기반 평가의 유효성을 임상 의사 평가와 비교했습니다. Meerkat-7B 모델이 가장 높은 성능을 보였으나, 일부 모델은 환자에게 오해를 유발할 수 있는 정보나 환각을 포함하는 응답을 생성했습니다. LLM 기반 평가는 임상 의사 평가와 높은 상관관계를 보였으며, 이는 대규모 벤치마킹에 LLM 평가의 활용 가능성을 시사합니다.

🔑 시사점 및 한계

•

의료 LLM은 안과 환자 질문 답변에 잠재력을 가지고 있으나, 임상적 깊이와 일관성 측면에서 개선이 필요합니다.

•

LLM 기반 평가는 대규모 벤치마킹에 효과적인 도구가 될 수 있으며, 임상 의사 평가와 높은 일치도를 보였습니다.

•

안전하고 효과적인 임상 적용을 위해서는 LLM 평가와 임상 의사 검토를 결합한 하이브리드 프레임워크가 필요합니다.

•

본 연구는 특정 안과 질환에 대한 질문만을 다루었으며, 다양한 안과 분야 및 복잡한 환자 시나리오에 대한 LLM의 성능은 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage