每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

InfoMosaic-Bench:评估工具增强代理中的多源信息搜索

Created by
  • Haebom

作者

杜亚欣、张元硕、杨曦源、周一凡、王成、邹公仪、庞祥和、王文浩、陈梦兰、唐硕、李志宇、熊飞宇、陈思恒

大纲

本文重点介绍了 LLM 代理在信息搜索方面的局限性,并介绍了 InfoMosaic-Bench——一个旨在评估其将专用工具与通用搜索功能集成能力的新基准测试。该基准测试涉及的任务需要将通用搜索与跨领域的特定领域工具相结合,实验表明 LLM 代理在这种集成方面存在困难。

Takeaways, Limitations

Takeaways:
仅有网络信息是不够的;利用特定领域的工具至关重要。
领域工具提供了可选的好处,但缺乏一致性。
LLM 代理在使用和选择工具方面遇到困难。
Limitations:
当前 LLM 代理缺乏工具使用技能。
集成工具和处理复杂信息任务的困难。
👍