每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

综合评价失去了什么?

Created by
  • Haebom

作者

亚历山大·吉尔、阿比拉莎·拉维奇德、安娜·马拉索维奇

大纲

随着大规模语言模型 (LLM) 在数据生成中的应用日益广泛,生成评估基准的重要性也日益凸显。本文通过两个案例研究,探讨 LLM 是否能够满足生成基于推理的文本基准的要求。具体而言,我们评估了两个高质量阅读理解数据集(评估否定推理的 CondaQA 和评估量化推理的 DROP)的 LLM 生成版本,并将它们与众包原始数据集进行比较。我们发现,LLM 可以低成本生成原始数据集的有效版本,遵循原始数据集的指导原则,但难度低于人工生成的基准。

Takeaways, Limitations

使用 LLM 生成数据可以创建经济高效且有效的基准。
LLM 生成的基准比人工生成的基准更容易。
通过 LLM 创建基准的局限性在于,与现有的众包方法相比,它可以降低基准的难度。
提出了仔细考虑使用 LLM 的基准生成方法的必要性。
👍