本文介绍了 MedHal,这是一个专门用于评估医学文本检测幻觉能力的大规模数据集。现有的幻觉检测方法在医疗保健等专业领域应用时存在显著局限性。MedHal 通过以下方式弥补了这些不足:(1) 整合多样化的医学文本来源和任务;(2) 提供大量适用于训练医学幻觉检测模型的带注释样本;(3) 引入对事实不一致之处的解释以指导模型学习。为了证明 MedHal 的实用性,我们训练并评估了一个基线医学幻觉检测模型,结果表明其结果优于传统的幻觉检测方法。该资源可以更高效地评估医学文本生成系统,同时减少对昂贵专家评审的依赖,从而加速医学 AI 的研究和开发。