每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

量化大型语言模型自我评估和交叉评估中的标签诱导偏差

Created by
  • Haebom

作者

穆斯坎·萨拉夫、萨贾德·雷兹瓦尼·博鲁杰尼、贾斯汀·博德里、侯赛因·阿贝迪、汤姆·布什

大纲

本研究探讨了使用大规模语言模型 (LLM) 进行文本质量评估时出现的系统性偏差。我们测试了 ChatGPT、Gemini 和 Claude 这三个 LLM 模型的自评和交叉评估中产生的偏差。我们评估了每个模型在无归因、真实归因和两次虚假归因条件下撰写的博客文章。评估方法包括总体偏好投票和三个维度的细粒度质量评分:凝聚力、信息量和简洁性。

Takeaways, Limitations

Takeaways:
模特的身份对其评价有很大的影响。
克劳德的得分往往较高,而双子座的得分则较低。
虚假属性的影响如此之大,以至于它们可以颠覆偏好排名。
双子座在现实属性条件下表现出严重的自贬,而克劳德则表现出增强的自我偏好。
这使得人们对使用 LLM 作为评估标准的方法的可靠性产生了怀疑。
Limitations:
为了解决模型之间的评估偏差,需要盲评估协议和各种多模型验证框架。
需要努力确保基于 LLM 的自动文本评估和基准测试的公平性和有效性。
👍