Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Clinical knowledge in LLMs does not translate to human interactions

작성자
  • Haebom

저자

Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapie Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 의료 상담의 실효성을 검증하기 위해 1,298명의 참가자를 대상으로 한 통제 연구를 수행했습니다. GPT-4, Llama 3, Command R+ 세 가지 LLM과 대조군(참가자 스스로 판단)을 비교하여 10가지 의료 시나리오에서 질병 진단 및 처치 방안 제시 능력을 평가했습니다. LLM은 단독으로 시나리오를 수행했을 때 질병 진단 정확도는 평균 94.9%, 처치 방안 제시 정확도는 평균 56.3%를 기록했습니다. 하지만 참가자가 LLM을 활용했을 때는 질병 진단 정확도가 34.5% 미만, 처치 방안 제시 정확도가 44.2% 미만으로 대조군과 유의미한 차이를 보이지 않았습니다. 이는 LLM의 의료 상담 활용에 있어 사용자 상호작용의 어려움을 시사합니다. 의료 지식 평가 및 시뮬레이션 환자 상호작용 기준만으로는 실제 사용자와의 상호작용에서 발생하는 문제점을 예측하기 어렵다는 점을 밝혔습니다.

시사점, 한계점

시사점:
LLM이 의료 면허 시험에서 높은 점수를 얻더라도 실제 의료 상담 환경에서는 정확도가 크게 떨어질 수 있음을 보여줍니다.
의료 분야에서 LLM을 활용하기 위해서는 단순한 지식 평가가 아닌, 실제 사용자와의 상호작용 능력을 평가하는 체계적인 사용자 테스트가 필수적임을 강조합니다.
기존의 의료 지식 평가 기준과 시뮬레이션 환자 상호작용 기준으로는 실제 환경에서의 LLM 성능을 정확하게 예측할 수 없다는 한계를 지적합니다.
한계점:
연구에 사용된 LLM과 시나리오의 제한으로 일반화에 어려움이 있을 수 있습니다.
사용자 인터페이스 디자인 및 교육의 영향에 대한 고려가 부족할 수 있습니다.
다양한 의료 분야와 질병 유형에 대한 추가 연구가 필요합니다.
👍