每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Auto-ARGUE:基于法学硕士的报告生成评估

Created by
  • Haebom

作者

William Walden、Orion Weller、Laura Dietz、Bryan Li、Gabrielle Kaili-May Liu、Yu Hou、Eugene Yang

大纲

Auto-ARGUE 是一个基于法学硕士 (LLM) 的框架,用于评估专门用于生成长篇报告的增强搜索生成 (RAG) 系统。在 TREC 2024 NeuCLIR 轨道上的报告生成试点任务中,对 Auto-ARGUE 的分析证实了其与人类判断的高度相关性。我们还发布了一个用于可视化 Auto-ARGUE 输出的 Web 应用程序。

Takeaways,Limitations

Takeaways:
解决缺乏专门用于报告生成评估的工具的问题。
我们提出了一个强大的评估系统,该系统与人类判断具有高度的相关性。
通过提供可视化 Auto-ARGUE 输出的网络应用程序来提高可用性。
Limitations:
Auto-ARGUE 的通用性及其在其他报告生成任务中的性能需要验证。
Auto-ARGUE 本身的性能还有提升的空间。
评估体系的公平性和偏见问题还有待进一步研究。
👍