본 논문은 전통 중의학(TCM)에 대한 대규모 언어 모델(LLM)의 성능 평가를 위한 다중 과제 벤치마크인 MTCMB를 제시한다. 기존 벤치마크의 한계를 극복하기 위해, 중의학 전문가와의 협력을 통해 지식 QA, 언어 이해, 진단 추론, 처방 생성, 안전성 평가 등 5가지 주요 범주에 걸쳐 12개의 하위 데이터셋으로 구성된 MTCMB를 개발하였다. 실제 임상 기록, 국가 면허 시험, 고전 문헌 등을 통합하여 현실적이고 종합적인 평가 환경을 제공하며, 현재 LLM들이 기초적인 지식에는 능숙하지만 임상 추론, 처방 계획 및 안전 준수에는 부족함을 보임을 보여준다. 본 논문에서 제시하는 MTCMB는 더욱 유능하고 신뢰할 수 있는 의료 AI 시스템 개발을 위한 벤치마크 역할을 할 것으로 기대된다. 모든 데이터셋, 코드 및 평가 도구는 공개적으로 제공된다.
시사점, 한계점
•
시사점:
◦
전통 중의학 분야에 특화된 LLM 평가 벤치마크 MTCMB를 최초로 제시.
◦
실제 임상 데이터와 전문가 지식을 바탕으로 현실적인 평가 환경 구축.
◦
LLM의 중의학 지식 및 추론 능력의 현황과 한계를 명확히 제시.
◦
향후 중의학 분야 AI 모델 개발 방향 제시 및 가이드라인 제공.
◦
공개된 데이터셋과 도구를 통해 연구의 재현성 및 확장성 확보.
•
한계점:
◦
MTCMB의 평가 결과가 현재 LLM의 성능을 전반적으로 대표하는지에 대한 추가 연구 필요.