LLMEval-Med는 의료 분야에서 대규모 언어 모델(LLM)을 평가하기 위한 새로운 벤치마크입니다. 기존 의료 벤치마크의 질문 디자인(주로 객관식), 데이터 소스(실제 임상 시나리오에서 파생되지 않은 경우가 많음), 평가 방법(복잡한 추론에 대한 평가 부족)의 한계를 해결하기 위해, 실제 의료 기록과 전문가가 설계한 임상 시나리오에서 생성된 2,996개의 질문을 포함하여 5개의 핵심 의료 분야를 다룹니다. 전문가가 개발한 체크리스트를 통합한 자동화된 평가 파이프라인과 LLM-as-Judge 프레임워크를 사용하며, 인간-기계 합의 분석을 통해 기계 점수의 유효성을 검증하고 전문가 피드백에 따라 체크리스트와 프롬프트를 동적으로 개선하여 신뢰성을 보장합니다. 13개의 LLM(전문 의료 모델, 오픈소스 모델, 클로즈드소스 모델)을 LLMEval-Med에서 평가하여 의료 분야에서 LLM의 안전하고 효과적인 배포에 대한 귀중한 통찰력을 제공합니다. 데이터셋은 https://github.com/llmeval/LLMEval-Med 에서 공개됩니다.