본 논문은 현대적인 장문맥 대규모 언어 모델(LLM)이 합성 "needle-in-a-haystack" (NIAH) 벤치마크에서 좋은 성능을 보이지만, 편향된 검색 및 에이전트 워크플로우에서 발생하는 노이즈가 있는 컨텍스트를 간과한다는 점을 지적한다. 논문은 실제 세계 요인을 충실히 포착하는 노이즈가 있는 장문맥을 구성하기 위해 haystack 엔지니어링이 필요하다고 주장하며, 이를 위해 전체 영어 위키백과 하이퍼링크 네트워크를 기반으로 하는 새로운 NIAH 벤치마크인 HaystackCraft를 제시한다. HaystackCraft는 이종 검색 전략, haystack 정렬, 다운스트림 LLM 성능에 미치는 영향을 평가한다. 또한, HaystackCraft는 모델이 쿼리를 개선하고, 과거 추론을 반영하며, 중지 시점을 결정하는 동적, LLM 종속 설정을 NIAH로 확장한다. 15개의 장문맥 모델을 사용한 실험 결과, 강력한 밀집 검색기는 더 어려운 방해 요소를 도입할 수 있지만, 그래프 기반 재순위는 검색 효과를 개선하고 더 유해한 방해 요소를 완화하는 것으로 나타났다. 또한, 에이전트 테스트에서 Gemini 2.5 Pro 및 GPT-5와 같은 고급 모델도 자체 생성된 방해 요소로 인해 실패하거나 조기 중지를 수행하는 데 어려움을 겪었다.