본 논문은 대규모 언어 모델(LLM)이 장거리 컨텍스트를 효과적으로 활용하는 능력 저하, 즉 "중간에서 길을 잃는(lost-in-the-middle)" 현상이 검색 기반 LLM 응용 분야에서 제기하는 중요한 과제를 다룹니다. 현실 세계 응용 환경에서 이 현상의 영향을 연구하기 위해, 저자들은 제어 변수 검색에 대한 LLM 성능을 평가하도록 설계된 새로운 벤치마크 데이터세트 GM-Extract를 소개합니다. 실패 모드를 정확하게 진단하기 위해, 공간적 검색 능력(Document Metric)과 의미적 검색 능력(Variable Extraction Metric)을 측정하는 두 가지 지표를 사용한 간단하지만 우아한 평가 시스템을 제안합니다. 7-8B 파라미터 모델을 두 가지 다중 문서 작업(키-값 추출 및 질문 답변)에 대해 체계적으로 평가하여, 컨텍스트 창에서 데이터 표현 방식의 변경만으로 검색 성능에 상당한 변화가 있음을 입증합니다. 뚜렷한 U자형 곡선이 일관되게 관찰되지는 않았지만, 분석 결과 모델 간의 명확한 성능 패턴이 나타났으며, 이를 혼란도 점수와 연관시켰습니다. 또한, 완화 방법에 대한 문헌 조사를 수행하여 블랙 박스 및 화이트 박스 방법으로 분류했습니다. 이러한 기술을 벤치마크에 적용한 결과, 그 효과가 매우 미묘하다는 것을 발견했습니다. 평가 결과, 이러한 전략이 성능을 성공적으로 개선하는 시나리오와 예상치 못하게 부정적인 영향을 미치는 사례를 강조하여, 실제 환경에서의 유용성에 대한 포괄적인 이해를 제공합니다.