Clinical knowledge in LLMs does not translate to human interactions
작성자
Haebom
저자
Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapie Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
개요
본 논문은 대규모 언어 모델(LLM)을 활용한 의료 상담의 실효성을 검증하기 위해 1,298명의 참가자를 대상으로 한 통제 연구를 수행했습니다. GPT-4, Llama 3, Command R+ 세 가지 LLM과 대조군(참가자 스스로 판단)을 비교하여 10가지 의료 시나리오에서 질병 진단 및 처치 방안 제시 능력을 평가했습니다. LLM은 단독으로 시나리오를 수행했을 때 질병 진단 정확도는 평균 94.9%, 처치 방안 제시 정확도는 평균 56.3%를 기록했습니다. 하지만 참가자가 LLM을 활용했을 때는 질병 진단 정확도가 34.5% 미만, 처치 방안 제시 정확도가 44.2% 미만으로 대조군과 유의미한 차이를 보이지 않았습니다. 이는 LLM의 의료 상담 활용에 있어 사용자 상호작용의 어려움을 시사합니다. 의료 지식 평가 및 시뮬레이션 환자 상호작용 기준만으로는 실제 사용자와의 상호작용에서 발생하는 문제점을 예측하기 어렵다는 점을 밝혔습니다.
시사점, 한계점
•
시사점:
◦
LLM이 의료 면허 시험에서 높은 점수를 얻더라도 실제 의료 상담 환경에서는 정확도가 크게 떨어질 수 있음을 보여줍니다.
◦
의료 분야에서 LLM을 활용하기 위해서는 단순한 지식 평가가 아닌, 실제 사용자와의 상호작용 능력을 평가하는 체계적인 사용자 테스트가 필수적임을 강조합니다.
◦
기존의 의료 지식 평가 기준과 시뮬레이션 환자 상호작용 기준으로는 실제 환경에서의 LLM 성능을 정확하게 예측할 수 없다는 한계를 지적합니다.