DM-Benchは、糖尿病患者の日常的な意思決定の課題における大規模言語モデル(LLM)のパフォーマンスを評価するために設計された最初のベンチマークです。このベンチマークは、糖尿病、血糖管理、代謝健康関連の分野で患者中心のAIソリューションをプロトタイプ化するために特化した包括的な評価フレームワークを提供します。 7つの課題カテゴリーを含み、3つの糖尿病人口(第1型、第2型、糖尿病前段階/一般健康およびウェルネス)の15,000人の個人から収集された1ヶ月間の時系列データ(連続血糖測定器(CGM)の血糖追跡および食事、活動パターンなどの行動ログ)をもとにした。 8つの最新LLMの分析により、正確性、根拠性、安全性、明確性、実行可能性など5つの指標でモデルのパフォーマンスを評価します。