본 논문은 간담췌 질환(HPB)의 높은 이환율과 사망률로 인해 전 세계적인 공중 보건 문제를 제기하는 점을 고려하여, HPB 질환 평가 벤치마크인 ClinBench-HBP를 개발한 연구에 대한 내용을 담고 있습니다. ClinBench-HBP는 ICD-10 기준 HPB 질환의 33개 주요 범주와 465개 하위 범주를 포괄하는 3,535개의 객관식 문제와 337개의 실제 진단 사례의 개방형 질문으로 구성됩니다. 객관식 문제는 공개 데이터셋과 합성 데이터에서, 임상 사례는 저명한 의학 저널, 사례 공유 플랫폼 및 협력 병원에서 수집되었습니다. 이 벤치마크를 사용하여 상용 및 오픈소스 LLM들을 평가한 결과, 상용 LLM들은 의학 시험 문제에서는 능숙한 성능을 보였지만, 특히 복잡한 입원 환자 임상 사례에서 HPB 진단 과제에서는 성능 저하를 보였으며 HPB 질환에 대한 일반화 능력도 제한적인 것으로 나타났습니다. 따라서 현재의 LLM이 간담췌 질환 분야에서 단순한 의학 시험 문제보다는 실제 복잡한 임상 진단을 처리하는 데 있어 심각한 한계를 가지고 있음을 보여줍니다. ClinBench-HBP 벤치마크는 연구 홈페이지에서 공개될 예정입니다.