LLMEval-Med는 의료 분야에서 대규모 언어 모델(LLM)을 평가하기 위한 새로운 벤치마크입니다. 기존 의료 벤치마크의 한계점인 질문 디자인(주로 객관식), 데이터 소스(실제 임상 시나리오에서 파생되지 않은 경우가 많음), 평가 방법(복잡한 추론에 대한 평가 부족)을 해결하기 위해, 실제 의료 기록과 전문가가 설계한 임상 시나리오에서 생성된 2,996개의 질문을 포함하여 5개의 핵심 의료 분야를 다룹니다. 전문가가 개발한 체크리스트를 통합한 자동화된 평가 파이프라인과 LLM-as-Judge 프레임워크를 사용하며, 인간-기계 일치 분석을 통해 기계 점수의 유효성을 검증하고, 전문가 피드백을 기반으로 체크리스트와 프롬프트를 동적으로 개선하여 신뢰성을 보장합니다. 3가지 범주(전문 의료 모델, 오픈소스 모델, 클로즈드소스 모델)의 13개 LLM을 LLMEval-Med에서 평가하여 의료 분야에서 LLM의 안전하고 효과적인 배포를 위한 귀중한 통찰력을 제공합니다. 데이터셋은 https://github.com/llmeval/LLMEval-Med 에서 공개됩니다.