Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation

Created by
  • Haebom

저자

Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li

개요

본 논문은 현대적인 장문맥 대규모 언어 모델(LLM)이 합성 "needle-in-a-haystack" (NIAH) 벤치마크에서 좋은 성능을 보이지만, 편향된 검색 및 에이전트 워크플로우에서 발생하는 노이즈가 있는 컨텍스트를 간과한다는 점을 지적한다. 논문은 실제 세계 요인을 충실히 포착하는 노이즈가 있는 장문맥을 구성하기 위해 haystack 엔지니어링이 필요하다고 주장하며, 이를 위해 전체 영어 위키백과 하이퍼링크 네트워크를 기반으로 하는 새로운 NIAH 벤치마크인 HaystackCraft를 제시한다. HaystackCraft는 이종 검색 전략, haystack 정렬, 다운스트림 LLM 성능에 미치는 영향을 평가한다. 또한, HaystackCraft는 모델이 쿼리를 개선하고, 과거 추론을 반영하며, 중지 시점을 결정하는 동적, LLM 종속 설정을 NIAH로 확장한다. 15개의 장문맥 모델을 사용한 실험 결과, 강력한 밀집 검색기는 더 어려운 방해 요소를 도입할 수 있지만, 그래프 기반 재순위는 검색 효과를 개선하고 더 유해한 방해 요소를 완화하는 것으로 나타났다. 또한, 에이전트 테스트에서 Gemini 2.5 Pro 및 GPT-5와 같은 고급 모델도 자체 생성된 방해 요소로 인해 실패하거나 조기 중지를 수행하는 데 어려움을 겪었다.

시사점, 한계점

시사점:
HaystackCraft는 실제 세계의 노이즈 컨텍스트를 반영하여 LLM의 장문맥 처리 능력을 평가하는 새로운 벤치마크를 제공한다.
이종 검색 전략 및 에이전트 워크플로우를 시뮬레이션하여 LLM의 강건성을 테스트한다.
그래프 기반 재순위가 검색 효과를 개선하고 유해한 방해 요소를 완화하는 데 효과적임을 보여준다.
Gemini 2.5 Pro 및 GPT-5와 같은 고급 모델도 에이전트 환경에서 어려움을 겪는다는 것을 밝혀, 개선의 여지를 제시한다.
한계점:
실험에 사용된 모델의 종류가 제한적일 수 있다.
HaystackCraft가 특정 도메인에 국한되어 있어, 다른 분야에 일반화하기 어려울 수 있다.
에이전트 워크플로우 시뮬레이션의 현실성이 제한적일 수 있다.
👍