每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

DM-Bench:糖尿病管理个性化决策的 LLM 基准测试

Created by
  • Haebom

作者

玛丽亚·安娜·卡代、约瑟芬·兰普、马克·德尔津斯基、卡兰·巴蒂亚

大纲

DM-Bench 是首个旨在评估大规模语言模型 (LLM) 在糖尿病患者日常生活决策任务中性能的基准测试。它提供了一个全面的评估框架,专门用于构建糖尿病、血糖管理和代谢健康领域以患者为中心的 AI 解决方案原型。该测试涵盖七个任务类别,基于从三个糖尿病人群(1 型、2 型和糖尿病前期/一般健康人群)的 15,000 名受试者收集的一个月时间序列数据(来自连续血糖监测 (CGM) 的血糖追踪数据以及膳食和活动模式等行为日志),生成了 360,600 个个性化问题。通过分析八个最先进的 LLM,该测试从五个指标(准确性、证据基础、安全性、清晰度和可行性)来评估模型性能。

Takeaways, Limitations

Takeaways:
为提高糖尿病患者AI解决方案的可靠性、安全性、有效性和实用性做出贡献。
根据实际糖尿病患者提出的问题,通过七个任务类别对 LLM 进行综合绩效评估。
使用包含不同糖尿病患者群体的大型数据集生成个性化问题。
通过准确度、有效性、安全性、清晰性、可行性五项指标综合评价模型性能。
通过不同 LLM 之间的性能比较,您可以识别每种模型的优势和劣势。
Limitations:
没有一个模型能够始终优于所有指标。
(论文中没有具体提及Limitations)
👍