Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ClinBench-HPB: A Clinical Benchmark for Evaluating LLMs in Hepato-Pancreato-Biliary Diseases

Created by
  • Haebom

저자

Yuchong Li, Xiaojun Zeng, Chihua Fang, Jian Yang, Fucang Jia, Lei Zhang

개요

본 논문은 간담췌 질환(HPB)의 높은 이환율과 사망률로 인해 전 세계적인 공중 보건 문제를 제기하는 점을 고려하여, HPB 질환 평가 벤치마크인 ClinBench-HBP를 개발했습니다. ClinBench-HBP는 ICD-10에 정의된 33개 주요 범주와 465개 하위 범주를 포함하는 3,535개의 객관식 문제와 337개의 개방형 실제 진단 사례로 구성됩니다. 객관식 문제는 공개 데이터셋과 합성 데이터에서, 임상 사례는 저명한 의학 저널, 사례 공유 플랫폼 및 협력 병원에서 수집되었습니다. 다양한 상용 및 오픈소스 LLM을 ClinBench-HBP로 평가한 결과, 상용 LLM은 의학 시험 문제에서는 능숙하게 수행하지만, 특히 복잡한 입원 환자 임상 사례에서 HPB 진단 과제에서는 성능이 크게 저하되는 것을 확인했습니다. 또한, 의료 LLM은 HPB 질환에 대한 일반화 능력이 제한적임을 보였습니다. 이는 현재 LLM이 단순한 의학 시험 문제가 아닌 실제 복잡한 임상 진단을 처리하는 데 심각한 한계를 가지고 있음을 보여줍니다. ClinBench-HBP 벤치마크는 https://clinbench-hpb.github.io 에서 공개될 예정입니다.

시사점, 한계점

시사점:
간담췌 질환(HPB)에 특화된 새로운 평가 벤치마크 ClinBench-HBP를 제시.
현재 LLM이 실제 임상 진단, 특히 복잡한 HPB 진단에 어려움을 겪고 있음을 밝힘.
향후 의료 LLM 개발 방향에 대한 시사점 제시 (실제 임상 사례 기반 학습 필요성 강조).
ClinBench-HBP 벤치마크 공개를 통해 LLM 성능 개선 연구 촉진.
한계점:
ClinBench-HBP의 데이터 출처 및 품질에 대한 자세한 설명 부족.
평가 대상 LLM의 종류와 버전에 대한 명확한 정보 부족.
LLM의 성능 저하 원인에 대한 심층적인 분석 부족.
ClinBench-HBP의 일반화 가능성에 대한 추가 연구 필요.
👍