본 논문은 대규모 언어 모델(LLM)의 일반 진료 적용 가능성을 평가하기 위한 새로운 평가 프레임워크와 벤치마크인 GPBench를 제시합니다. 기존 평가 방식의 한계를 지적하며, 실제 진료 현장의 책임과 일치하는 역량 기반 구조를 갖춘 GPBench를 통해 10개의 최첨단 LLM을 평가했습니다. 그 결과, 현재 LLM은 인간의 감독 없이는 일반 의사의 역할을 수행할 준비가 되어 있지 않으며, 일반 의사의 일상적인 업무에 맞춘 추가적인 최적화가 필수적임을 밝혔습니다.
시사점, 한계점
•
시사점: LLM의 일반 진료 적용 가능성에 대한 실제적인 평가 기준을 제시하고, 현실적인 한계를 명확히 제시함으로써 향후 연구 방향을 제시합니다. GPBench는 LLM의 의료 분야 적용 연구에 중요한 기준점이 될 수 있습니다.
•
한계점: GPBench의 데이터는 도메인 전문가에 의해 주의 깊게 주석이 달렸지만, 데이터의 규모와 다양성에 대한 추가적인 검토가 필요할 수 있습니다. 또한, 평가 프레임워크 자체의 일반화 가능성과 한계에 대한 추가적인 연구가 필요합니다. 현재 평가는 특정 LLM들에 국한되어 있으며, 다양한 LLM 아키텍처 및 학습 방법론에 대한 포괄적인 평가가 추가적으로 필요합니다.