DM-Bench 是首个旨在评估大规模语言模型 (LLM) 在糖尿病患者日常生活决策任务中性能的基准测试。它提供了一个全面的评估框架,专门用于构建糖尿病、血糖管理和代谢健康领域以患者为中心的 AI 解决方案原型。该测试涵盖七个任务类别,基于从三个糖尿病人群(1 型、2 型和糖尿病前期/一般健康人群)的 15,000 名受试者收集的一个月时间序列数据(来自连续血糖监测 (CGM) 的血糖追踪数据以及膳食和活动模式等行为日志),生成了 360,600 个个性化问题。通过分析八个最先进的 LLM,该测试从五个指标(准确性、证据基础、安全性、清晰度和可行性)来评估模型性能。