DM-Bench는 당뇨병 환자의 일상생활 의사 결정 과제에서 대규모 언어 모델(LLM)의 성능을 평가하기 위해 설계된 최초의 벤치마크입니다. 이 벤치마크는 당뇨병, 혈당 관리, 신진대사 건강 관련 분야에서 환자 중심 AI 솔루션을 프로토타입화하는 데 특화된 포괄적인 평가 프레임워크를 제공합니다. 7가지 과제 범주를 포함하며, 3가지 당뇨병 인구(제1형, 제2형, 당뇨병 전단계/일반 건강 및 웰빙)의 15,000명의 개인으로부터 수집된 한 달간의 시계열 데이터(연속 혈당 측정기(CGM)의 혈당 추적 및 식사, 활동 패턴 등의 행동 로그)를 기반으로 360,600개의 개인화된 질문을 생성합니다. 8개의 최신 LLM에 대한 분석을 통해 정확성, 근거성, 안전성, 명확성, 실행 가능성 등 5가지 지표로 모델 성능을 평가합니다.