每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Haystack Engineering:用于异构和代理长上下文评估的上下文工程

Created by
  • Haebom

作者

李木飞、付东奇、王丽梅、张思、曾汉清、Kaan Sancak、邱瑞忠、王浩宇、何晓欣、Xavier Bresson、夏应龙、孙崇林、李潘

大纲

本文认为,尽管现代长上下文大规模语言模型 (LLM) 在合成“大海捞针”(NIAH) 基准测试中表现良好,但它们忽略了由偏向性检索和代理工作流程引起的噪声上下文。我们认为,为了构建能够忠实捕捉现实世界因素的噪声长上下文模型,干草堆工程 (Haystack engineering) 是必不可少的。为了实现这一目标,我们提出了 HaystackCraft,这是一个基于完整英文维基百科超链接网络的新型 NIAH 基准测试。HaystackCraft 评估了异构检索策略、干草堆排序和下游 LLM 性能的影响。此外,HaystackCraft 通过动态的、依赖于 LLM 的设置扩展了 NIAH,使模型能够优化查询、反映过去的推断并确定停止点。对 15 个长上下文模型的实验表明,虽然强大的密集搜索器可能会引入更具挑战性的干扰,但基于图的重排序可以提高检索效率并减轻更有害的干扰。此外,在代理测试中,即使是 Gemini 2.5 Pro 和 GPT-5 等先进模型也会因自生干扰而失败或提前停止。

Takeaways, Limitations

Takeaways:
HaystackCraft 提供了一个新的基准来评估 LLM 的长期上下文处理能力,反映现实世界的嘈杂环境。
我们通过模拟异构搜索策略和代理工作流来测试 LLM 的稳健性。
我们证明基于图的重新排序可以有效地提高搜索性能并减轻有害干扰。
即使是 Gemini 2.5 Pro 和 GPT-5 等先进模型在代理环境中也会遇到困难,这表明仍有改进的空间。
Limitations:
实验中使用的模型类型可能有限。
由于 HaystackCraft 是特定领域的,因此可能难以推广到其他领域。
代理工作流程模拟的真实性可能受到限制。
👍