尽管通过人工分析大规模临床数据识别疾病关联存在挑战,且机器学习 (ML) 潜力巨大,但诸如选择最佳方法、确定数据源以及缺乏“基本事实”等挑战依然存在。本研究系统地评估了基于两种数据源(来自 MIMIC-IV EHR 的 ICD-10 代码序列和完整的 ICD-10 代码)的七种疾病关联识别方法。评估包括统计共现分析、掩码语言模型 (MLM)、BERT 的领域特定变体、通用 BERT、文档检索和四种 LLM。基于图谱对所得关联矩阵的比较表明,基于 LLM 的方法比其他方法(基于文本和基于领域)的 ICD 代码连接多样性更低,这表明使用 LLM 发现新型关联存在局限性。研究结果提供了一个有价值的疾病本体,可为未来临床研究和医疗保健领域的 AI 应用奠定基础。