每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

FinAgentBench:金融问答中代理检索的基准数据集

Created by
  • Haebom

作者

Chanyeol Choi、Jihoon Kwon、Alejandro Lopez-Lira、Chaewoon Kim、Minjae Kim、Juneha Hwang、Jaeseon Ha、Hojun Choi、Suyeol Yun、Yongjin Kim、Yongjae Lee

FinAgentBench:评估金融领域使用多层推理进行信息检索的基准。

大纲

本文介绍了 FinAgentBench,这是一个用于评估金融领域通过多层次推理进行信息检索能力的大规模基准测试。FinAgentBench 包含 26,000 个专家标注的标准普尔 500 指数公司样本,用于评估大规模语言模型 (LLM) 代理在以下两方面的能力:(1) 识别相关文档类型;(2) 在选定文档中准确定位关键短语。该基准测试为研究 LLM 在金融领域复杂任务中以检索为核心的行为奠定了基础。

Takeaways,Limitations

Takeaways:
提供第一个通过多层次推理评估金融领域信息检索能力的大规模基准。
我们提出了一个框架来评估 LLM 代理的能力:(1) 识别文档类型和 (2) 提取关键短语。
对金融领域以搜索为中心的法学硕士的行为进行了定量分析。
我们证明特定的微调可以显著提高代理搜索性能。
Limitations:
论文中没有具体说明Limitations。(这需要稍后通过论文进行确认。)
👍