본 논문은 의료 시스템의 외래 환자 의뢰 업무에 점점 더 많이 적용되는 대규모 언어 모델(LLM)의 효과성, 특히 동적인 상호작용 시나리오에서의 효과성을 평가하기 위한 표준화된 평가 기준의 부재를 다룹니다. 지능형 외래 환자 의뢰(IOR) 시스템 내에서 과제를 관리하는 LLM의 기능과 한계를 체계적으로 조사하고, 이러한 시스템을 위해 특별히 설계된 포괄적인 평가 프레임워크를 제안합니다. 이 프레임워크는 미리 정의된 외래 환자 의뢰 능력을 평가하는 정적 평가와 반복적인 대화를 통해 외래 환자 의뢰 권장 사항을 개선하는 능력을 평가하는 동적 평가의 두 가지 핵심 과제로 구성됩니다. 연구 결과에 따르면 LLM은 BERT 유사 모델에 비해 제한적인 이점만 제공하지만, 상호 작용적 대화 중 효과적인 질문을 하는 데 유망한 결과를 보여줍니다.
시사점, 한계점
•
시사점: 지능형 외래 환자 의뢰 시스템을 위한 LLM 평가를 위한 포괄적인 프레임워크를 제시합니다. LLM이 상호작용적 대화에서 효과적인 질문을 하는 데 유용함을 보여줍니다.
•
한계점: LLM이 BERT 유사 모델에 비해 제한적인 이점만 보여줍니다. 표준화된 평가 기준의 부재 문제를 해결하기 위한 프레임워크 제시이지만, 실제 의료 환경에서의 일반화 가능성에 대한 추가 연구가 필요합니다.