每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SurGE:科学调查生成的基准和评估框架

Created by
  • Haebom

作者

苏伟航、谢安哲、艾青耀、龙建明、毛佳欣、叶子怡、刘逸群

大纲

学术文献的爆炸式增长使得手动生成科学调查问卷变得越来越不可能。虽然大规模语言模型有望实现这一过程的自动化,但缺乏标准化的基准和评估协议阻碍了该领域的发展。为了弥补这一关键差距,我们推出了 SurGE(调查问卷生成评估),这是计算机科学领域中用于生成科学调查问卷的全新基准。SurGE 包含:(1) 一个包含每个主题描述、专家撰写的调查问卷和完整引用参考文献的测试实例语料库;以及 (2) 一个包含超过一百万篇文章的大规模学术语料库。我们还提出了一个自动化评估框架,该框架从四个维度衡量生成的调查问卷的质量:全面性、引用准确性、结构组织和内容质量。对各种基于 LLM 的方法的评估揭示了显著的性能差距,表明即使是先进的代理框架也难以应对调查问卷生成的复杂性,这凸显了未来在该领域开展研究的必要性。所有代码、数据和模型均在https://github.com/oneal2000/SurGE에서开源。

Takeaways, Limitations

Takeaways:
我们提出了 SurGE,这是计算机科学领域科学研究生成的新基准,为客观评估研究提供了基础。
我们提出了一个自动评估框架来系统地衡量研究的质量。
通过评估各种基于 LLM 的方法的性能,我们提出了现有技术的局限性和未来的研究方向。
通过提供所有代码、数据和模型作为开源,我们为相关研究的激活和进步做出了贡献。
Limitations:
SurGE 基准仅限于计算机科学领域,在推广到其他领域方面存在局限性。
自动化评估框架尚不完善,可能无法完全取代人工评估。
本文提出的方法有可能提高性能,并且还需要进一步研究。
👍