本文强调了大规模语言模型 (LLM) 部署前公平性和偏差评估的重要性,因为它们广泛应用于临床决策支持、法律分析、招聘和教育等高风险领域。为了克服现有评估方法的不足,我们提出了 HALF(Harm-Aware LLM Fairness),这是一个以部署为中心的框架,用于评估实际应用环境中的模型偏差,并考虑损害的严重程度。HALF 将九个应用领域划分为三个等级(严重、中度和轻度),并使用一个五阶段流程。对八个 LLM 的评估结果表明:(1) LLM 并非始终如一地展现出跨领域的公平性;(2) 模型规模和性能并不能保证公平性;(3) 推理模型的性能优于医疗决策支持模型,但不如训练模型。