本文介绍了评估大规模语言模型 (LLM) 道德能力的研究。我们发现现有研究存在三个问题:过度依赖明确的道德特征、过于注重判断预测以及缺乏对额外信息需求的认识。借鉴哲学研究成果,我们提出了一种评估 LLM 道德能力的新方法。该方法评估五个维度:识别道德相关特征、评估其重要性、赋予道德理由、整合一致的判断以及识别信息缺口。在两个实验中,我们将 LLM 与非专家和专家哲学家进行了比较。虽然 LLM 在传统方法中的表现优于人类,但在新场景中却明显逊于人类。这项研究为评估人工智能的道德能力提供了一个更细致的框架,并提出了未来提升人工智能系统道德能力的方向。