本文认为,尽管现代长上下文大规模语言模型 (LLM) 在合成“大海捞针”(NIAH) 基准测试中表现良好,但它们忽略了由偏向性检索和代理工作流程引起的噪声上下文。我们认为,为了构建能够忠实捕捉现实世界因素的噪声长上下文模型,干草堆工程 (Haystack engineering) 是必不可少的。为了实现这一目标,我们提出了 HaystackCraft,这是一个基于完整英文维基百科超链接网络的新型 NIAH 基准测试。HaystackCraft 评估了异构检索策略、干草堆排序和下游 LLM 性能的影响。此外,HaystackCraft 通过动态的、依赖于 LLM 的设置扩展了 NIAH,使模型能够优化查询、反映过去的推断并确定停止点。对 15 个长上下文模型的实验表明,虽然强大的密集搜索器可能会引入更具挑战性的干扰,但基于图的重排序可以提高检索效率并减轻更有害的干扰。此外,在代理测试中,即使是 Gemini 2.5 Pro 和 GPT-5 等先进模型也会因自生干扰而失败或提前停止。