Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners

Created by
  • Haebom
Category
Empty

저자

Zheqing Li, Yiying Yang, Jiping Lang, Wenhao Jiang, Yuhang Zhao, Shuang Li, Dingqian Wang, Zhu Lin, Xuanna Li, Yuze Tang, Jiexian Qiu, Xiaolin Lu, Hongji Yu, Shuang Chen, Yuhua Bi, Xiaofei Zeng, Yixian Chen, Junrong Chen, Lin Yao

개요

본 논문은 일반의 진료 현장의 실제 시나리오를 반영하는 새로운 평가 프레임워크 GPBench를 제시합니다. 기존의 LLM 평가는 주로 객관식 시험 방식에 치중되어 실제 의료 현장의 복잡성을 반영하지 못하는 한계가 있었습니다. GPBench는 일반의의 기본 지식을 평가하는 객관식 문제와 현실적인 시나리오 기반 문제를 포함하며, 전문가에 의해 세심하게 주석이 달린 풍부한 정보를 제공합니다. 본 연구는 GPBench를 이용하여 주요 LLM들을 평가한 결과, 질병 단계 설정, 합병증 인식, 치료 세부 사항, 약물 사용 등에서 최소 10가지 이상의 주요 결점을 발견하였습니다. 결론적으로, 현재의 LLM은 인간의 감독 없이 실제 일반의 진료 현장에서 독립적으로 사용하기에는 적합하지 않음을 보여줍니다.

시사점, 한계점

시사점:
일반의 진료 현장의 실제 시나리오를 반영하는 새로운 평가 프레임워크 GPBench 제시
LLM의 의료 분야 적용 가능성 및 한계점에 대한 객관적인 평가 제공
현존 LLM의 의료 현장 적용을 위한 개선 방향 제시
한계점:
GPBench가 아직 초기 단계의 평가 프레임워크이며, 더욱 다양하고 광범위한 시나리오를 포함할 필요가 있음
평가에 사용된 LLM의 종류 및 버전에 따라 결과가 달라질 수 있음
실제 의료 현장의 복잡성을 완벽하게 반영하는 것은 어려움
전문가 평가의 주관성이 결과에 영향을 미칠 수 있음
👍