본 논문은 일반의 진료 현장의 실제 시나리오를 반영하는 새로운 평가 프레임워크 GPBench를 제시합니다. 기존의 LLM 평가는 주로 객관식 시험 방식에 치중되어 실제 의료 현장의 복잡성을 반영하지 못하는 한계가 있었습니다. GPBench는 일반의의 기본 지식을 평가하는 객관식 문제와 현실적인 시나리오 기반 문제를 포함하며, 전문가에 의해 세심하게 주석이 달린 풍부한 정보를 제공합니다. 본 연구는 GPBench를 이용하여 주요 LLM들을 평가한 결과, 질병 단계 설정, 합병증 인식, 치료 세부 사항, 약물 사용 등에서 최소 10가지 이상의 주요 결점을 발견하였습니다. 결론적으로, 현재의 LLM은 인간의 감독 없이 실제 일반의 진료 현장에서 독립적으로 사용하기에는 적합하지 않음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
일반의 진료 현장의 실제 시나리오를 반영하는 새로운 평가 프레임워크 GPBench 제시
◦
LLM의 의료 분야 적용 가능성 및 한계점에 대한 객관적인 평가 제공
◦
현존 LLM의 의료 현장 적용을 위한 개선 방향 제시
•
한계점:
◦
GPBench가 아직 초기 단계의 평가 프레임워크이며, 더욱 다양하고 광범위한 시나리오를 포함할 필요가 있음