每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

EvalMORAAL:可解释的思路链和 LLM-as-Judge 评估,用于大型语言模型中的道德一致性

Created by
  • Haebom

作者

哈迪·穆罕默迪、阿纳斯塔西娅·吉查努、阿尤布·巴盖里

大纲

EvalMORAAL 是一个透明的思路链 (CoT) 框架,它使用两种评分方法(对数概率和直接评分)以及模型评判同行评审来评估 20 个大型语言模型的道德一致性。该框架根据世界价值观调查(55 个国家/地区,19 个主题)和 PEW 全球态度调查(39 个国家/地区,8 个主题)对模型进行评估。使用 EvalMORAAL,排名靠前的模型与调查结果紧密相关(WVS 上的 Pearson's r 约为 0.90),区域差异显示出一致的区域偏见,西方地区的平均 r 为 0.82,非西方地区的平均 r 为 0.61。该框架结合了两种评分方法进行公平比较、带有自洽性检查的结构化思路链协议以及使用数据驱动阈值的模型评判同行评审来识别 348 个冲突。同行共识与调查一致性相关并支持自动质量检查。

Takeaways, Limitations

顶级模型与调查结果非常接近(WVS 中的 Pearson's r 约为 0.90)。
存在地区差异,西部地区平均R=0.82,非西部地区平均r=0.61。
EvalMORAAL 使用两种评分方法:事故链协议和模型判断同行评审。
同行共识与调查一致性相关并支持自动质量检查。
区域偏见仍然是使用具有文化意识的人工智能所面临的挑战。
👍