每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

不断发展的科学考试

Created by
  • Haebom

作者

王俊英、张子成、郭一进、文法荣、沉野、梁英吉、吴雅伦、李文哲、李春怡、陈子健、贾齐、翟广涛

大纲

本文介绍了不断发展的科学考试 (EESE),这是一个旨在评估基础模型科学理解能力的动态基准测试。EESE 旨在解决数据泄露风险和大规模测试带来的低效问题,它由一个私有的 EESE 池(包含五大领域和 500 多个子领域的超过 100,000 个问题-答案对)和一个定期更新的 EESE 池(包含 500 个问题)组成,旨在实现防泄漏、低成本的评估。对 32 个模型的实验表明,EESE 能够有效区分科学和认知领域的模型优缺点。

Takeaways,Limitations

Takeaways:
动态基准设计,降低数据泄露风险,提高评估效率。
建立涵盖多个科学领域和子领域的综合评估数据库。
提供用于评估模型科学能力的强大、可扩展且面向未来的解决方案。
通过对各种模型的实验验证基准的有效性。
Limitations:
由于 EESE-Pool 的隐私性,可访问性受到限制。
需要持续的管理和更新来保持基准的可靠性。
需要进一步研究来确定评估结果的普遍性。
👍